和 你 一 起 揭 开 大 数据 神秘 的 面 
去 伪 存 真 、 抽 丝 剥 昔 、 由 表 及 里 、 循 序 渐进 ， TAE IATE, 成 为 精通 者 ! 


大 数据 技术 概论 


从 虚幻 走向 真实 的 数据 世界 


类 岩 O 编著 





中 


E 
hl 


hu 
mmn 











GIDA N IT 


EID ll AT 




















A 











rÍ £ + £ tuya 


大 数据 技术 概论 


清华 大 学 出 版 社 


北京 


内 容 简 介 


本 书 从 初学 者 易于 理解 的 角度 ,以 通俗 易 悦 的 语言 .丰富 的 实例 简洁 的 图 表 、 传 统 和 现代 数据 特征 的 
对 比 , 将 大 数据 这 一 计算 机 前 沿 科学 如 数 家 珍 地 娓 娓 道 来 。 既 介绍 了 大 数据 和 相关 的 基础 知识 ,又 与 具体 
应 用 有 机 结合 起 来 ,并 借助 可 视 化 图 表 的 画面 感 立 体 地 为 读者 剖析 了 大 数据 的 技术 和 原理 ,非常 便于 
自学 。 

本 书 内 容 包 括 大 数据 概论 、 大 数据 采集 及 预 处 理 、 大 数据 分 析 、 大 数据 可 视 化 .Hadoop 概论 `.HDFS 和 
Common 概论 `MapReduce 概论 ,NoSQL 技术 介绍 、Spark 概论 、 云 计算 与 大 数据 、 大 数据 相关 案例 等 内 容 。 

本 书 既 可 以 作为 想 了 解 大 数据 技术 和 应 用 的 初学 者 的 教材 ,也 适合 作为 培训 中 心 IT 人 员 ,企业 策划 
和 管理 人 员 的 参考 书 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防 伪 标签 .无 标签 者 不 得 销售 。 
版 权 所 有 ,侵权 必 究 。 侵 权 举 报 电话 : 00-6789 1370112183 


图 书 在 版 编目 (CIP) 数 据 


大 数据 技术 概论 /类 岩 编著 .一 北京 : 清华 大 学 出 版 社 ,2017. 1 
ISBN 978-7-302-45051-1 


I. Oke H. O% H. @ 数 据 处 理 N. TP274 


中 国 版 本 图 书馆 CIP 数据 核 字 (2017) 第 218544 号 


责任 编辑 : AF i IH 
封面 设计 : 刘 键 

责任 校对 : 焦 丽 丽 

责任 印 制 : 


出 版 发 行 : 清华 大 学 出 版 社 
网 址 : http://www. tup. com. cn, http://www. wqbook. com 
地 a: 北京 清华 大 学 学 研 大 厦 A 座 邮  #: 100084 
社 总 机 : 010-62770175 AB W: 010-62786544 
投稿 与 读者 服务 : 010-62776969, c-service@tup. tsinghua. edu. cn 
质量 反馈 : 010-62772015, zhiliang@ tup. tsinghua. edu. cn 
课件 下 载 : http://www. tup. com. cn,010-62795954 


= m 


= 5 É 35 P # W W 


: 全 国 新 华 书店 

: 185mmX260mm ” 印 张 : 13 
: 2017 年 1 月 第 1 版 

: 1 一 2000 

: 35.00 3 


: 315 千 字 
: 2017 年 1 月 第 1 次 印刷 


3# 


h S 8 * 8 8 s 
污 潍 





` 
sn 
$ 


: 069372-01 


Di} 


FOREWORD 


IT 产业 在 其 发 展 历程 中 ,经 历 过 几 次 技术 浪潮 。 如 今 ,大 数据 浪潮 正在 迅速 朝 我 们 涌 
来 ,并 将 触及 各 个 行业 和 生活 的 许多 方面 。 大 数据 浪潮 将 比 之 前 发 生 过 的 浪潮 更 大 、 触 及 面 
更 广 ,给 人 们 的 工作 和 生活 带 来 的 变化 和 影响 也 更 大 。 

毋庸 置疑 ,大 数据 的 应 用 激发 了 一 场 思想 风暴 ,也 悄然 改变 了 我 们 的 生活 方式 和 思维 习 
惯 。 大 数据 正 以 前 所 未 有 的 速度 颠覆 人 们 探索 世界 的 方法 ,引起 工业 .商业 、 医 学 .军事 等 领 
域 的 深刻 变革 。 因 此 ,在 当前 大 数据 浪潮 的 猛烈 冲击 下 ,人 们 迫切 需要 充实 和 完善 自己 原 有 
的 IT 知识 结构 ,掌握 两 种 全 新 的 技能 : 一 是 掌握 大 数据 基本 技术 与 应 用 ,使 大 数据 为 我 们 
所 用 的 技能 ; 二 是 掌握 数据 之 间 隐 藏 的 规律 与 关系 ,以 及 可 视 化 方法 ,使 大 数据 更 好 地 服务 
于 社会 发 展 的 技能 。 

本 书 注重 实用 性 ,围绕 大 数据 及 其 相关 技术 这 一 主题 ,采用 深入 浅 出 ` 图 文 并 茂 的 叙述 
方式 ,简明 扼要 地 盖 述 了 大 数据 及 其 相关 技术 的 基本 理论 和 发 展 趋势 ,使 广大 读者 通过 阅读 
本 书 , 深 入 了 解 和 掌握 大 数据 的 理论 和 应 用 ,从 而 更 好 地 把 握 时 代 发 展 的 脉搏 和 历史 赋予 的 
机 遇 。 

本 书 的 目标 是 给 广大 读者 提供 一 个 既 通俗 易 懂 , 又 具有 严谨 \ 完 整 .结构 化 特征 的 书籍 。 
其 独到 之 处 是 既 闸 明了 大 数据 技术 的 系统 性 和 理论 性 ,又 对 传统 数据 和 大 数据 在 来 源 、 结 
构 、 特 征 、 存 储 方式 、 使 用 方法 等 方面 ,通过 大 量 的 表格 和 图 形 方式 进行 了 有 针对 性 的 对 比 和 
曾 述 ,使 读者 对 两 者 的 区 别 一 目 了 然 , 对 理解 和 掌握 大 数据 理 技 术 具 有 事半功倍 的 效果 。 另 
外 ,考虑 到 大 数据 技术 涉及 许多 新 名 词 和 专业 性 极 强 的 词汇 , 故 在 全 书 的 每 一 章 中 均 附 有 相 
关 术 语 的 注释 ,方便 读者 查阅 和 自学 。 

本 书 还 力求 将 大 数据 技术 星 涩 难 懂 的 理论 知识 以 通俗 易 懂 的 语言 和 方式 ,由 浅 入 深 地 
展现 在 读者 面前 ,便于 读者 理解 和 掌握 。 本 书 内 容重 点 突出 ,语言 精练 易 懂 ,非常 便于 自学 , 
可 作为 想 了 解 、 使 用 大 数据 技术 的 相关 人 员 , 如 工程 技术 人 员 IT 工作 者 、 企 业 策划 和 管理 
人 员 的 参考 书 , 也 可 作为 相关 学 习 班 的 培训 教材 。 

全 书 共 分 成 11 章 : 第 1 章 大 数据 概论 ,第 2 章 大 数据 采集 及 预 处 理 , 第 3 章 大 数据 分 
析 概 论 ,第 4 章 大 数据 可 视 化 ,第 5 章 Hadoop 概论 .第 6 # HDFS 和 Common 概论 ,第 7 章 
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MapReduce 概论 ,第 8 章 NoSQL 技术 介绍 ,第 9 章 Spark 概论 ,第 10 章 云 计算 与 大 数据 ， 
第 11 章 大 数据 解决 方案 相关 案例 。 

本 书 在 写作 过 程 中 参阅 了 大 量 的 中 外 书籍 和 相关 资料 ,在 此 对 各 位 作者 表示 真诚 的 谢 
意 。 另 外 本 书 得 到 了 中 国医 科大 学 沙 宪政 教授 和 东北 大 学 杨 广 明教 授 的 大 力 支 持 , 清 华 大 
学 出 版 社 对 这 本 书 的 出 版 做 了 精心 策划 及 充分 论证 ,特此 感谢 ! 由 于 作者 水 平 有 限 , 加 之 时 
间 仓 促 , 书 中 难免 存在 朴 漏 之 处 ,恳请 广大 读者 批评 答 正 ! 


2016 年 6 月 
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内 容 与 要 求 

大 数据 是 继 物 联网 之 后 IT 产业 又 一 次 颠覆 性 的 技术 变革 。 本 章 主要 对 大 数据 技 
术 进 行 概述 、 对 大 数据 技术 的 架构 、 大 数据 的 整体 技术 和 关键 技术 、 大 数据 分 析 的 典型 工 
具 以 及 大 数据 未 来 发 展 趋势 进行 介绍 ,使 读者 更 好 地 了 解 什么 是 大 数据 技术 。 

大 数据 技术 的 概述 包含 了 大 数据 的 基本 概念 ,大 数据 的 来 源 、 产 生 阶 段 、 特 点 \ 大 数 
据 处 理 的 基本 流程 .特征 和 应 用 领域 。 了 解 大 数据 的 来 源 和 应 用 领域 ,掌握 大 数据 的 特 
点 和 大 数据 处 理 的 基本 流程 。 

大 数据 技术 的 架构 中 了 解 4 层 堆栈 式 技 术 架 构 , 包 括 基 础 层 、 管 理 层 、 分 析 层 和 应 
用 层 。 

大 数据 的 整体 技术 和 关键 技术 中 了 解 大 数据 的 整体 技术 一 般 包 括 数 据 采集 、 数 据 存 
取 、 基 础 架构 .数据 处 理 、 统 计 分 析 \ 数 据 挖 据 、 模 型 预测 和 结果 呈现 等 。 关 键 技术 一 般 包 
括 大 数据 采集 、 大 数据 预 处 理 、 大 数据 存储 及 管理 、 开 发 大 数据 安全 ,大 数据 技术 、 大 数据 
分 析 及 挖 握 、 大 数据 展现 和 应 用 。 

大 数据 分 析 的 5 种 典型 工具 简介 中 简单 介绍 了 5 种 工具 ,包括 Hadoop、Spark、 
HPCC, Storm 和 Apache Drill, 

大 数据 未 来 发 展 趋势 中 了 解数 据 资源 化 , 随 着 大 数据 应 用 的 发 展 , 大 数据 资源 成 为 
重要 的 战略 资源 ,数据 成 为 新 的 战略 制高点 。 
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重点 、 难 点 


本 章 重点 是 了 解 大 数据 的 特点 特征 和 大 数据 未 来 发 展 趋势 。 本 章 的 难点 是 了 解 大 
数据 技术 架构 、 整 体 技术 和 关键 技术 。 














由 于 各 种 网 络 技术 的 发 展 、 科 学 数据 处 理 、 商 业 智 能 数据 分 析 等 具有 海量 需求 的 应 用 变 
得 越 来 越 普遍 , 面 对 如 此 巨大 的 数据 量 , 无 论 从 形式 上 还 是 内 容 上 ,已 无 法 用 传统 的 方式 进 
行 采集 、 存 储 、 操 作 , 管 理 、 分 析 和 可 视 化 了 。 而 找 出 数据 源 , 确 定数 据 量 , 选 择 正确 的 数据 处 
理 方法 ,并 将 结果 可 视 化 的 过 程 就 变 得 非常 现实 和 迫切 。 而 无 论 是 分 析 专 家 还 是 数据 科学 
家 最 终 都 会 探索 新 的 、 无 法 想象 的 庞大 数据 集 ,以 期 发 现 一 些 有 价值 的 趋势 .形态 和 解决 问 
题 的 方法 。 我 们 完全 有 理由 说 ,大 数据 是 继 物 联网 之 后 IT 产业 又 一 次 颠覆 性 的 技术 变革 。 

大 数据 (Big Data) 是 指 当 传统 的 数据 挖掘 和 处 理 技术 对 某 些 数据 无 可 奈何 时 使 用 的 处 
理 过 程 。 如 数据 是 非 结构 化 ,实时 性 强 或 信息 量 巨大 ,以 至 于 无 法 通过 关系 数据 库 引 擎 进行 
处 理 的 数据 ,而 需要 新 的 技术 手段 和 具有 分 布 式 处 理 数据 功能 的 并 行 硬件 设备 来 实现 。 


1.1 大 数据 技术 概述 
毋庸 置疑 ,大 数据 已 经 走 进 了 我 们 的 生活 , 且 成 为 整个 人 类 社会 关注 的 热点 。 什 么 是 大 
数据 ,其 相关 技术 、 应 用 领域 以 及 未 来 的 发 展 趋势 将 是 本 音 重 点 介绍 的 内 容 。 
1.1.1 大 数据 的 基本 概念 


早 在 1980 年 ,著名 未 来 学 家 阿尔 文 . 托 夫 勒 便 在 (第 三 次 浪潮 ) 一 书 中 ,将 大 数据 热情 
地 赞颂 为 "第 三 次 浪潮 的 华 彩 乐章 ”。 从 技术 层面 上 看 ,大 数据 是 无 法 用 单 台 计算 机 进行 处 
理 的 ,必须 采用 分 布 式 计算 架构 。 其 特色 在 于 对 海量 数据 的 挖掘 ,但 它 又 必须 依托 一 些 现 有 
的 数据 处 理 方法 ,如 流 式 处 理 , 分 布 式 数据 库 \ 云 存储 与 虚拟 化 技术 ,如 图 1-1 所 示 。 


PaaS 分 布 式 处 理 如 MapReduce 、JobKeeper 
分 布 式 数据 库 如 HBase 、 数 据 立 方 


如 HDFS 、cStor 如 VMware ~ OpenStack 




















图 1-1 大 数据 与 云 技术 


网 络 是 大 数据 的 主要 载体 之 一 ,可 以 说 没有 网 络 就 没有 今天 的 大 数据 技术 。 美 国 网 络 
数据 中 心 指出 , 单 就 互联 网 上 的 数据 每 年 将 增长 50%, 每 两 年 就 将 翻 一 番 , 而 目前 世界 上 
90% 以 上 的 数据 是 最 近 几 年 才 被 人 们 逐渐 认识 和 产生 的 。 当 然 数 据 并 非 单纯 指 人 们 在 互联 
网 上 发 布 的 信息 ,全 世界 的 工业 设备 ,汽车 .电表 上 有 着 无 数 的 数码 传感器 ,随时 测量 和 传递 
着 有 关 位 置 运 动 、 震 动 、 温 度 、 湿 度 乃 至 空气 中 化 学 物质 的 变化 ,必然 会 产生 海量 的 数据 
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息 。 
大 数据 的 意义 在 于 可 以 通过 人 类 日 益 普 及 的 网 络 行为 附带 生成 ,并 被 相关 部 门 、 企 业 所 
采集 ,蕴含 着 数据 生产 者 的 真实 意图 .喜好 ,其 中 包括 传统 结构 和 非 传统 结构 的 数据 。 
从 海量 数据 中 “提纯 ”出 有 用 的 信息 ,然而 这 对 网 络 架构 和 数据 处 理 能 力 而 言 无 疑 是 巨 
大 的 挑战 。 在 经 历 了 几 年 的 批判 .质疑 讨论 ,炒作 之 后 ,人 们 终于 迎 来 了 大 数据 时 代 。 
大 数据 的 核心 在 于 为 客户 从 数据 中 挖掘 出 蕴藏 的 价值 ,而 不 是 软 硬 件 的 堆砌 。 因 此 , 针 
对 不 同 领域 的 大 数据 应 用 模式 .商业 模式 的 研究 和 探索 将 是 大 数据 产业 健康 发 展 的 关键 。 


1.1.2 IT 产业 的 发 展 简 史 


IT 产业 的 几 个 发 展 阶段 如 图 1-2 所 示 , 可 以 说 YT 产业 的 每 一 个 阶段 都 是 由 新 兴 的 IT 
供应 商 主导 的 。 他 们 改变 了 已 有 的 秩序 ,重新 定义 了 计算 机 的 规范 ,并 为 进入 IT 领域 的 新 
纪元 铺 平 了 道路 。 





l 
个 人 计算 机 / 


大 型 机 | 微 处 理 器 


20 世 纪 60 年 代 | 20 世 纪 90 网 
小 型 机 年 代 
20 世 纪 80 年 代 





图 1-2 IT 产业 的 几 个 发 展 阶段 


20 世纪 60 年 代 和 70 年 代 的 大 型 机 阶段 是 以 Burroughs, Univac, NCR, Control Data 
和 Honeywell 等 公司 为 首 的 。 在 步 入 20 世纪 80 年 代 后 ,小 型 机 涌现 出 来 ,这 时 为 首 的 公司 
包括 DEC IBM Data General, Wang .Prime 等 。 

在 20 世纪 90 年 代 ,IT 产业 进入 了 微 处 理 器 或 个 人 计算 机 阶段 ,领先 者 为 Microsoft 
(微软 ) „Intel, IBM 和 Apple 等 公司 。 从 20 世纪 90 年 代 中 期 开始 ,IT 产业 进入 了 网 络 化 阶 
段 。 如 今 ,全 球 在 线 的 人 数 已 经 超过 了 10 亿 , 这 一 阶段 由 Cisco, Google, Oracle, EMC, 
Salesforce. com 等 公司 领导 。IT 产业 的 下 一 个 阶段 还 没有 正式 命名 ,人 们 更 愿意 称 其 为 去 
计算 /大 数据 阶段 。 

数字 信息 每 天 在 无 线 电 波 、 电 话 电 路 和 计算 机 电缆 等 媒介 中 川流不息 。 我 们 周围 到 处 
都 是 数字 信息 ,在 高 清 电视 机 上 看 数字 信息 ,在 互联 网 上 听 数 字 信 息 , 自 己 也 在 不 断 制造 新 
的 数字 信息 。 例 如 .每 次 用 数码 照相 机 拍照 后 ,都 产生 新 的 数字 信息 ; 通过 电子 邮件 把 照片 
发 给 朋友 和 家 人 ,又 制造 了 更 多 的 数字 信息 。 不 过 , 没 人 知道 这 些 流 式 数字 信息 有 多 少 、 增 
加 速度 有 多 快 、 其 激增 意味 着 什么 。 正 如 中 国人 在 发 明文 字 前 就 有 了 阴阳 学 说 ,并 用 其 解释 
包罗 万 象 的 宇宙 世界 一 样 ,西方 人 用 制造 ,获取 和 复制 的 所 有 1 和 0, 通 过 计算 机 处 理 组 成 
了 数字 世界 。 人 们 通过 拍摄 照片 和 共享 音乐 制造 了 大 量 的 数字 信息 ,而 公司 则 组 织 和 管理 
这 些 数字 信息 的 访问 、 存 储 , 并 为 其 提供 强 有 力 的 安全 保障 。 
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目前 世界 上 有 三 种 类 型 模拟 数字 转换 方式 : 

(1) 为 数字 信息 量 的 增长 提供 动力 和 服务 ; 

(2) 胶片 影像 拍摄 转换 为 数字 影像 拍摄 ,模拟 语音 转换 为 数字 语音 ; 

(3) 模拟 电视 转换 为 数字 电视 。 

从 数码 照相 机 、 可 视 电 话 、 医 用 扫描 仪 到 保安 摄像 头 , 全 世界 有 10 亿 多 台 设 备 在 拍摄 影 
像 ,这 些 影像 成 为 数字 海洋 中 最 大 的 组 成 部 分 ,通过 互联 网 .企业 内 部 网 在 个 人 计算 机 
(PC)、 服 务 器 及 数据 中 心中 复制 ,通过 数字 电视 广播 和 数字 投影 银幕 播放 。 

2007 年 是 有 史 以 来 人 类 创造 的 信息 量 第 一 次 在 理论 上 超过 可 用 存储 空间 总 量 的 一 年 。 
然而 ,这 并 不 可 怕 ,调查 结果 强调 现在 人 类 应 该 也 必须 合理 调整 数据 存储 和 管理 。 如 三 十 多 
年 前 ,通信 行业 的 数据 大 部 分 还 是 结构 化 数据 。 如 今 , 多 媒体 技术 的 普及 导致 非 结构 化 数据 
如 音乐 和 视频 等 的 数量 出 现 爆炸 式 增长 。 虽 然 三 十 多 年 前 的 一 个 普通 企业 用 户 文件 也 许 表 
现 为 数据 库 中 的 一 排 数 字 , 但 是 如 今 的 类 似 普通 文件 可 能 包含 许多 数字 化 图 片 和 文件 的 影 
像 或 者 数字 化 录音 内 容 。 现 在 ,92% 以 上 的 数字 信息 都 是 非 结构 化 数据 。 在 各 组 织 和 企业 
中 , 非 结 构 化 数据 占 到 了 所 有 信息 数据 总 量 的 80% 以 上 。 

另外 可 视 化 是 引起 数字 世界 急速 膨胀 的 主要 原因 之 一 。 由 于 数码 照相 机 数码 监控 摄 
像 机 和 数字 电视 内 容 的 加 速 增长 及 信息 的 大 量 复制 趋势 ,使 得 数字 世界 的 容量 和 膨胀 速度 
超过 此 前 估计 。 个 人 日 常生 活 的 “数字 足迹 ?大 大 刺激 了 数字 世界 的 快速 增长 。 通 过 互联 网 
及 社交 网 络 .电子 邮件 .移动 电话 .数码 照相 机 和 在 线 信用 卡 交易 等 多 种 方式 ,每 个 人 的 日 常 
生活 都 在 被 “数字化”。 数 字 世 界 的 规模 在 2006—2011 年 五 年 间 约 膨胀 了 10 倍 , 如 图 1-3 
所 示 。 
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图 1-3 2006—2011 年 全 球 数字 信息 的 增长 


大 数据 快速 增长 的 原因 之 一 是 智能 设备 的 普及 ,如 传感器 、 医 疗 设备 及 智能 建筑 (如 楼 
宇和 桥梁 ) 。 此 外 , 非 结构 化 信息 ,如 文件 .电子 邮件 和 视频 ,将 占 到 未 来 10 年 新 生 数据 的 
90% 。 非 结构 化 信息 增长 的 另 一 个 原因 是 由 于 高 宽带 数据 的 增长 ,如 视频 。 

用 户 手 中 的 手机 和 移动 设备 是 数据 量 爆 炸 的 一 个 重要 原因 。 目 前 ,全 球 手 机 用 户 共 拥 
有 50 亿 台 手机 ,其 中 20 亿 台 为 智能 手机 ,相当 于 20 世纪 80 年 代 20 亿 台 IBM 的 大 型 机 在 
消费 者 手 里 。 

大 数据 正在 以 不 可 阻拦 的 磅 磷 气 势 , 与 当代 同样 有 具有 革命 意义 的 最 新 科技 进步 (如 虚拟 
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现实 技术 、 增 强 现实 技术 、 纳 米 技术 、 生 物 工程 移动 平台 应 用 等 ) 一 起 , 揭 开 人 类 新 世纪 的 
序幕 。 

对 于 地 球 上 每 一 个 普通 居民 而 言 , 大 数据 有 什么 应 用 价值 呢 ? 只 要 看 看 周围 正在 变化 
的 一 切 , 你 就 可 以 知道 ,大 数据 对 每 个 人 的 重要 性 不 亚 于 人 类 初期 对 火 的 使 用 。 大 数据 让 人 
类 对 一 切 事物 的 认识 回归 本 源 , 其 通过 影响 经 济 生活 \ 政 治 博弈 ` 社 会 管理 ,文化 教育 科研 、 
医疗 保健、 休闲 等 行业 ,与 每 个 人 产生 密切 的 联系 。 

大 数据 时 代 已 悄然 来 到 我 们 身边 ,并 渗透 到 我 们 每 个 人 的 日 常生 活 之 中 , 谁 都 无 法 回 
避 。 它 提供 了 光怪陆离 的 全 媒体 ,难以 琢磨 的 云 计算 ,无 法 抵御 的 虚拟 仿真 环境 和 随处 可 在 
的 网 络 服务 。 随 着 互联 网 技术 的 莲 勃 发 展 .我 们 一 定 会 迎 来 大 数据 的 智能 时 代 , 即 大 数据 技 
术 和 生活 紧密 相连 , 它 再 也 不 仅仅 是 人 们 津津 乐 道 的 一 种 时 尚 ,而 是 成 为 生活 上 的 向 导 和 助 
手 。 中 国 大 数据 市 场 的 应 用 展望 如 图 1-4 所 示 。 
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图 1-4 中 国 大 数据 市 场 的 应 用 展望 





1.1.3 大 数据 的 来 源 


大 数据 的 来 源 非常 多 ,如 信息 管理 系统 、 网 络 信 息 系 统 、 物 联网 系统 、 科 学 实验 系统 等 ， 
其 数据 类 型 包括 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 。 

(1) 信息 管理 系统 : 企业 内 部 使 用 的 信息 系统 ,包括 办 公 自 动 化 系统 、 业 务 管理 系统 
等 。 信 息 管理 系统 主要 通过 用 户 输入 和 系统 二 次 加 工 的 方式 产生 数据 ,其 产生 的 大 数据 大 
多 数 为 结构 化 数据 ,通常 存储 在 数据 库 中 。 

(2) 网 络 信息 系统 : 基于 网 络 运行 的 信息 系统 即 网 络 信息 系统 是 大 数据 产生 的 重要 方 
式 , 如 电子 商务 系统 、 社 交 网 络 .社会 媒体 、 搜 索引 擎 等 都 是 常见 的 网 络 信息 系统 。 网 络 信息 
系统 产生 的 大 数据 多 为 半 结 构 化 或 非 结 构 化 的 数据 ,在 本 质 上 ,网 络 信息 系统 是 信息 管理 系 
统 的 延伸 ,是 专属 于 某 个 领域 的 应 用 ,具备 某 个 特定 的 目的 。 因 此 ,网 络 信息 系统 有 着 更 独 
特 的 应 用 。 

(3) 物 联网 系统 : 物 联网 是 新 一 代 信息 技术 ,其 核心 和 基础 仍然 是 互联 网 ,是 在 互联 网 
基础 上 延伸 和 扩展 的 网 络 , 其 用 户 端 延伸 和 扩展 到 了 任何 物品 与 物品 之 间 ,进行 信息 交换 和 
通信 ,而 其 具体 实现 是 通过 传 感 技术 获取 外 界 的 物理 ,化 学 .生物 等 数据 信息 。 





> 大 淘 据 技术 概论 


(4) 科学 实验 系统 : 主要 用 于 科学 技术 研究 ,可 以 由 真实 的 实验 产生 数据 ,也 可 以 通过 
模拟 方式 获取 仿真 数据 。 


1.1.4 大 数据 产生 的 三 个 发 展 阶段 
从 数据 库 技术 诞生 以 来 ,产生 大 数据 的 方式 主要 经 过 了 三 个 发 展 阶 段 。 
1. 被 动 式 生成 数据 


数据 库 技 术 使 得 数据 的 保存 和 管理 变 得 简单 ,业务 系统 在 运行 时 产生 的 数据 可 以 直接 
保存 到 数据 库 中 ,由 于 数据 是 随 业务 系统 运行 而 产生 的 ,因此 该 阶段 所 产生 的 数据 是 被 
动 的 。 

2. 主动 式 生成 数据 


物 联网 的 诞生 使 得 移动 互联 网 的 发 展 大 大 加 速 了 数据 的 产生 几率 ,例如 人 们 可 以 通过 
手机 等 移动 终端 随时 随地 产生 数据 。 用 户 数据 不 但 大 量 增 加 ,同时 用 户 还 主动 提交 了 自己 
的 行为 ,使 之 进入 了 社交 、 移 动 时 代 。 大 量 移动 终端 设备 的 出 现 ,使 用 户 不 仅 主动 提交 自己 
的 行为 ,还 和 自己 的 社交 圈 进 行 了 实时 互动 ,因此 数据 大 量 产生 出 来 , 且 具 有 极其 强烈 的 传 
播 性 。 显 然 如 此 生成 的 数据 是 主动 的 。 


3. 感知 式 生成 数据 
物 联网 的 发 展 使 得 数据 生成 方式 得 以 彻底 地 改变 。 例 如 遍布 在 城市 各 个 角落 的 摄像 头 
等 数据 采集 设备 源源 不 断 地 自动 采集 并 生成 数据 。 
1.1.5 大 数据 的 特点 


在 大 数据 背景 下 ,数据 的 采集 、 分 析 、 处 理 较 之 传统 方式 有 了 苏 覆 性 的 改变 ,如 表 1-1 
所 示 。 








表 上 1 传统 数据 与 大 数据 的 特点 比较 
传统 数据 大 数据 
数据 产生 方式 | 被 动 采集 数据 王 动 生成 数据 

- _ 一 利用 大 数据 平 下 ;可 对 需要 分 析 事 作 的 歼 据 过 
数据 采集 密度 | 采样 密度 较 低 .采样 数据 有 限 boat ome hi dt 

“| 利用 大 数据 技术 ,通过 分 布 式 技术 、 分 布 式 文 
aA MEERI pa Artist iB Sitka BBA 
取 的 数据 进行 整合 处 理 

较 大 的 数据 源 .响应 时 间 要 录 低 的 应 用 可 以 采 
取 批 处 理 方式 集中 计算 : 响应 时 间 要 求 高 的 实 
时 数据 处 理 采用 流 处 理 的 方式 进行 实时 计算 
并 通过 对 历史 数据 的 分 析 进行 预测 分 析 
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1.1.6 大 数据 处 理 流 程 


大 数据 的 处 理 流 程 可 以 定义 为 在 适合 工具 的 辅助 下 ,对 不 同 结构 的 数据 源 进 行 抽取 和 
集成 ,结果 按照 一 定 的 标准 统一 存储 ,利用 合适 的 数据 分 析 技 术 对 存储 的 数据 进行 分 析 , 从 
中 提取 有 益 的 知识 并 利用 恰当 的 方式 将 结果 展示 给 终端 用 户 。 大 数据 处 理 的 基本 流程 如 
图 1-5 所 示 。 


| 结构 化 数据 ， 
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图 1-5 大 数据 处 理 的 基本 流程 


1. 数据 抽取 与 集成 


由 于 大 数据 处 理 的 数据 来 源 类 型 广泛 ,而 其 第 一 步 是 对 数据 进行 抽取 和 集成 ,从 中 找 出 
关系 和 实体 ,经 过 关联 、 聚 合 等 操作 ,再 按照 统一 的 格式 对 数据 进行 存储 , 现 有 的 数据 抽取 和 
集成 引擎 有 三 种 : 基于 物化 或 ETL 方法 的 引擎 ,基于 中 间 件 的 引擎 、 基 于 数据 流 方法 的 
引擎 。 


2. 大 数据 分 析 


大 数据 分 析 是 指 对 规模 巨大 的 数据 进行 分 析 。 大 数据 分 析 是 大 数据 处 理 流程 的 核心 步 
又。 通过 抽取 和 集成 环节 ,从 不 同 结构 的 数据 源 中 获得 用 于 大 数据 处 理 的 原始 数据 ,用 户 根 
据 需 求 对 数据 进行 分 析 处 理 , 如 数据 挖掘 、 机 器 学 习 、 数 据 统计 ,数据 分 析 可 以 用 于 决策 支 
持 , 商 业 智 能 ,推荐 系统 、 预 测 系统 等 。 


3. 数据 可 视 化 


用 户 最 关心 的 是 数据 处 理 的 结果 及 以 何 种 方式 在 终端 上 显示 结果 ,因此 采用 什么 方式 
展示 处 理 结果 非常 重要 。 就 目前 来 看 ,可 视 化 和 人 机 交互 是 数据 解释 的 主要 技术 。 

数据 可 视 化 主要 是 借助 于 图 形 化 手段 .清晰 有 效 地 传达 与 沟通 信息 。 数 据 可 视 化 技术 
的 基本 思想 是 将 数据 库 中 每 一 个 数据 项 作为 单个 图 元 元 素 表示 ,大 量 的 数据 集合 构成 数据 
图 像 ,同时 将 数据 的 各 个 属性 值 以 多 维 数据 的 形式 表示 ,可 以 从 不 同 的 维度 观察 数据 ,从 而 
对 数据 进行 更 深入 的 观察 和 分 析 。 而 使 用 可 视 化 技术 可 以 将 处 理 结果 通过 图 形 方式 直观 地 
呈现 给 用 户 , 如 标签 云 \ 历 史 流 、 空 间 信息 等 ; 人 机 交互 技术 可 以 引导 用 户 对 数据 进行 逐步 
分 析 , 参 与 并 理解 数据 分 析 结 果 。 
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1.1.7 大 数据 的 数据 格式 特性 


从 IT 角度 来 看 ,信息 结构 类 型 大 致 经 历 了 三 个 阶段 。 必 须 注 意 的 是 , 旧 的 阶段 仍 在 不 
断 发 展 , 如 关系 数据 库 的 使 用 。 因 此 三 种 数据 结构 类 型 一 直 存 在 ,只 是 其 中 一 种 结构 类 型 往 
往 主导 其 他 结构 。 

(1) 结构 化 信息 : 这 种 信息 可 以 在 关系 数据 库 中 找到 ,多 年 来 一 直 主 导 着 IT 应 用 ,是 
关键 任务 OLTP 系统 业务 所 依赖 的 信息 。 另 外 ,这 种 信息 还 可 对 结构 数据 库 信息 进行 排序 
和 查询 。 

(2) 半 结 构 化 信息 : 包括 电子 邮件 、 文 字 处 理 文件 及 大 量 保存 和 发 布 在 网 络 上 的 信息 。 
半 结 构 化 信息 是 以 内 容 为 基础 的 ,可 以 用 于 搜索 ,这 也 是 Google( 谷 歌 ) 等 搜索 引擎 存在 的 
理由 。 

(3) 非 结构 化 信息 : 该 信息 在 本 质 形式 上 可 认为 主要 是 位 映射 数据 。 数 据 必 须 处 于 一 
种 可 感知 的 形式 中 (如 可 在 音频 ,视频 和 多 媒体 文件 中 被 听 到 或 看 到 )。 许 多 大 数据 都 是 非 
结构 化 的 ,其 庞大 的 规模 和 复杂 性 需要 高 级 分 析 工 具 来 创建 或 利用 一 种 更 易于 人 们 感知 和 
交互 的 结构 。 


1.1.8 大 数据 的 特征 


大 数据 分 析 常 和 云 计 算 联 系 到 一 起 ,因为 实时 的 大 型 数据 集 分 析 需 要 像 MapReduce 那 
样 的 框架 来 向 数 十 , 数 百 或 甚至 数 千 个 计算 机 分 配 工作 。 简 言 之 ,从 各 种 各 样 类 型 的 数据 中 
快速 获得 有 价值 信息 的 能 力 ,就 是 大 数据 技术 。 

大 数据 呈现 出 4V10 的 特征 ,具体 如 下 。 

(1) 数据 量 大 (Volume) ; 是 大 数据 的 首要 特征 ,包括 采集 、 存 储 和 计算 的 数据 量 非常 
大 。 大 数据 的 起 始 计 量 单位 至 少 是 100TB。 通 过 各 种 设备 产生 的 海量 数据 ,其 数据 规模 极 
为 庞大 ,远大 于 目前 互联 网 上 的 信息 流量 .PB 级 别 将 是 常态 。 

(2) 多 样 化 (Variety) : 表示 大 数据 种 类 和 来 源 多 样 化 ,具体 表现 为 网 络 日 志 、 音 频 、 视 
频 、 图 片 、 地 理 位 置信 息 等 多 类 型 的 数据 ,多 样 化 对 数据 的 处 理 能 力 提出 了 更 高 的 要 求 , 由 于 
编码 方式 ,数据 格式 、 应 用 特征 等 多 个 方面 都 存在 差异 性 ,多 信息 源 并 发 形成 大 量 的 异 构 
数据 。 

(3) 数据 价值 密度 化 (Value) : 表示 大 数据 价值 密度 相对 较 低 , 需 要 很 多 的 过 程 才能 挖 
掘 出 来 。 随 着 互联 网 和 物 联 网 的 广泛 应 用 ,信息 感知 无 处 不 在 ,信息 量 大 ,但 价值 密度 较 低 。 
如 何 结合 业务 逻辑 并 通过 强大 的 机 器 算法 挖掘 数据 价值 ,是 大 数据 时 代 最 需要 解决 的 问题 。 

(4) 速度 快 , 时 效 高 (Velocity) : 随 着 互联 网 的 发 展 .数据 的 增长 速度 非常 快 ,处 理 速度 
也 较 快 ,时 效 性 要 求 也 更 高 。 例 如 ,搜索 引擎 要 求 几 分 钟 前 的 新 闻 能 够 被 用 户 查 询 到 ,个 性 
化 推荐 算法 要 求实 时 完成 推荐 .这些 都 是 大 数据 区 别 于 传统 数据 挖掘 的 显著 特征 。 

(5) 数据 是 在 线 的 (On-Line) : 表示 数据 必须 随时 能 调用 和 计算 。 这 是 大 数据 区 别 于 
传统 数据 的 最 大 特征 。 现 在 谈 到 的 大 数据 不 仅 大 ,更 重要 的 是 数据 是 在 线 的 ,这 是 互联 网 高 
速 发 展 的 特点 和 趋势 。 例 如 好 大 夫 在 线 . 患 者 的 数据 和 医生 的 数据 都 是 实时 在 线 的 ,这 样 的 
数据 才 有 意义 。 如 果 把 它们 放 在 磁盘 中 或 者 是 离线 的 ,显然 这 些 数据 远 远 不 及 在 线 的 商业 
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价值 大 。 
总 之 ,无 所 通 形 的 大 数据 时 代 已 经 到 来 ,并 快速 渗透 到 每 个 职能 领域 ,如 何 借助 大 数据 
持续 创新 发 展 ,使 企业 成 功 转型 ,具有 非凡 的 意义 。 


1.1.9 大 数据 的 应 用 领域 


大 数据 在 社会 生活 的 各 个 领域 得 到 了 广泛 的 应 用 ,如 科学 计算 ,金融 ,社交 网 络 、 移 动 数 
据 \ 物 联网 、 医 疗 、 网 页 数据 、 多 媒体 、 网 络 日 志 、RFID 传感器 、 社 会 数据 、 互 联网 文本 和 文 
件 , 互 联网 搜索 索引 ,呼叫 详细 记录 、 天 文学 、 大 气 科学 、 基 因 组 学 、 生 物 和 其 他 复杂 或 跨 学 科 
的 科研 .军事 侦察 .医疗 记录 ,摄影 档案 馆 视 频 档案 ,大 规模 的 电子 商务 等 。 不 同 领域 的 大 数 
据 应 用 具有 不 同 特点 ,其 响应 时 间 ,稳定 性 .精确 性 的 要 求 各 不 相同 ,解决 方案 也 层出不穷 ， 
其 中 最 具 代 表 性 的 有 Informatica Cloud 解决 方案 、IBM 战略 、Microsoft 战略 .京东 框架 结 
构 等 ,对 此 我 们 将 在 后 续 章节 中 讨论 。 


1.2 大 数据 技术 架构 


各 种 各 样 的 大 数据 应 用 迫切 需要 新 的 工具 和 技术 来 存储 、 管 理 和 实现 商业 价值 。 新 的 
工具 、 流 程 和 方法 支撑 起 了 新 的 技术 架构 ,使 企业 能 够 建立 .操作 和 管理 这 些 超大 规模 的 数 
据 集 和 数据 存储 环境 。 

企业 逐渐 认识 到 必须 在 数据 驻 留 的 位 置 进行 分 析 , 提 升 计算 能 力 , 以 便 为 分 析 工 具 提 供 
实时 响应 。 考 虑 到 数据 速度 和 数据 量 , 来 回 移动 数据 进行 处 理 是 不 现实 的 。 相 反 , 计 算 和 分 
析 工 具 可 以 移 到 数据 附近 。 因 此 , 云 计算 模式 对 大 数据 的 成 功 至 关 重要 。 

云 模型 在 从 大 数据 中 提取 商业 价值 的 同时 也 在 驯服 它 。 这 种 交付 模型 能 为 企业 提供 一 
种 灵活 的 选择 ,以 实现 大 数据 分 析 所 需 的 效率 、 可 扩展 性 、 数 据 便携 性 和 经 济 性 ,但 仅仅 存储 
和 提供 数据 还 不 够 ,必须 以 新 方式 合成 ,分析 和 关联 数据 ,才能 提供 商业 价值 。 部 分 大 数据 
方法 要 求 处 理 未 经 建 模 的 数据 ,因此 ,可 以 用 上 毫 不 相干 的 数据 源 比较 不 同类 型 的 数据 和 进行 
模式 匹配 ,从 而 使 大 数据 的 分 析 能 以 新 视角 挖掘 企业 传统 数据 ,并 带 来 传统 上 未 曾 分 析 过 的 
数据 洞察 力 。 基 于 上 述 考 虑 ,一 般 可 以 构建 出 适合 大 数据 的 四 层 堆栈 式 技术 架构 ,如 图 1-6 
所 示 。 





1. 基础 层 


第 一 层 作为 整个 大 数据 技术 架构 基础 的 最 底层 ,也 是 基础 层 。 要 实现 大 数据 规模 的 应 
用 ,企业 需要 一 个 高 度 自动 化 的 、 可 横向 扩展 的 存储 和 计算 平台 。 这 个 基础 设施 需要 从 以 前 
的 存储 孤岛 发 展 为 具有 共享 能 力 的 高 容量 存储 池 。 容 量 、 性 能 和 吞吐 量 必须 可 以 线性 扩展 。 

云 模 型 鼓励 访问 数据 并 通过 提供 弹性 资源 池 来 应 对 大 规模 问题 ,解决 了 如 何 存储 大 量 
数据 及 如 何 积聚 所 需 的 计算 资源 来 操作 数据 的 问题 。 在 云 中 ,数据 跨 多 个 结 点 调配 和 分 布 ， 
使 数据 更 接近 需要 它 的 用 户 , 从 而 缩短 响应 时 间 ,提高 效率 。 


2. 管理 层 
大 数据 要 支持 在 多 源 数据 上 做 深层 次 的 分 析 , 在 技术 架构 中 需要 一 个 管理 平台 , 即 管理 
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层 使 结构 化 和 非 结构 化 数据 管理 为 一 体 ,具备 实时 传送 和 查询 .计算 功能 。 本 层 既 包括 数据 
的 存储 和 管理 ,也 涉及 数据 的 计算 。 并 行 化 和 分 布 式 是 大 数据 管理 平台 所 必须 考虑 的 要 素 。 
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图 1-6 四 层 堆 栈 式 技术 架构 


3. 分 析 层 


大 数据 应 用 需要 大 数据 分 析 。 分 析 层 提供 基于 统计 学 的 数据 挖掘 和 机 器 学 习 算法 ,用 
于 分 析 和 解释 数据 集 ,帮助 企业 获得 深入 的 数据 价值 领情 。 可 扩展 性 强 、 使 用 灵活 的 大 数据 
分 析 平 台 更 可 能 成 为 数据 科学 家 的 利器 ,起 到 事半功倍 的 效果 。 

4. 应 用 层 

大 数据 的 价值 体现 在 帮助 企业 进行 决策 和 为 终端 用 户 提供 服务 的 应 用 上 。 不 同 的 新 型 
商业 需求 驱动 了 大 数据 的 应 用 。 反 之 ,大 数据 应 用 为 企业 提供 的 竞争 优势 使 企业 更 加 重视 


大 数据 的 价值 。 新 型 大 数据 应 用 不 断 对 大 数据 技术 提出 新 的 要 求 , 大 数据 技术 也 因此 在 不 
断 的 发 展 变化 中 日 趋 成 熟 。 


1.3 大 数据 的 整体 技术 和 关键 技术 


大 数据 需要 特殊 的 技术 ,以 有 效 地 处 理 在 允许 时 间 范 围 内 的 大 量 数据 。 适 用 于 大 数据 
的 技术 ,包括 大 规模 并 行 处 理 (MPP) 数 据 库 、 数 据 挖掘 电 网 、 分 布 式 文件 系统 、 分 布 式 数据 
库 、 云 计算 平台 、 互 联网 和 可 扩展 的 存储 系统 。 

大 数据 技术 分 为 整体 技术 和 关键 技术 两 个 方面 。 


1. 整体 技术 





大 数据 的 整体 技术 一 般 包括 数据 采集 ,数据 存 取 、 基 础 架构 .数据 处 理 、. 统 计 分 析 、 数 据 
挖掘、 模型 预测 和 结果 呈现 等 。 

(1) 数据 采集 : ETL 工具 负责 将 分 布 的 、 异 构 数 据 源 中 的 数据 ,如 关系 数据 平面 数据 
文件 等 抽取 到 临时 中 间 层 后 进行 清洗 、 转 换 、 集 成 .最 后 加 载 到 数据 仓库 或 数据 集 市 中 ,成 为 
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联机 分 析 处 理 ` 数 据 挖掘 的 基础 。 

(2) 数据 存 取 : 关系 数据 库 .NoSQL .SQL 等。 

(3) 基础 架构 : 云 存储 、 分 布 式 文件 存储 等 。 

(4) 数据 处 理 : 自然 语言 处 理 (Natural Language Processing,NLP) 是 研究 人 与 计算 机 
交互 的 语言 问题 的 一 门 学 科 。 处 理 自然 语言 的 关键 是 要 让 计算 机 “理解 ”自然 语言 ,所 以 自 
然 语言 处 理 又 称 为 自然 语言 理解 (Natural Language Understanding, NLU), 也 称 计 算 语言 
学 (Computational Linguistics) 。 

(5) 统计 分 析 : 假设 检验 、 显 著 性 检验 、 差 异 分 析 、 相 关 分 析 、T 检验 、 方 差分 析 、 卡 方 分 
析 、 偏 相关 分 析 、 距 离 分 析 、 回 归 分 析 、 简 单 回归 分 析 、 多 元 回归 分 析 、 逐 步 回 归 、 回 归 预 测 与 
残 差分 析 、 岭 回归 、Logistic 回归 分 析 、 曲 线 估计 、 因 子 分 析 、 聚 类 分 析 、 主 成 分 分 析 、 因 子 分 
析 \ 快 速 聚 类 法 与 聚 类 法 、 判 别 分 析 、 对 应 分 析 、 多 元 对 应 分 析 ( 最 优 尺度 分 析 ) Bootstrap 技 

(6) 数据 挖掘: 分 类 (Classification) „fith (Estimation) 、 预 测 (Prediction) ,相关 性 分 组 
或 关联 规则 (Affinity Grouping or Association Rules)、 聚 类 (Clustering)、 描 述 和 可 视 化 
(Description and Visualization) ,复杂 数据 类 型 挖掘 (Text、Web、 图 形 图 像 、 视 频 、 音 频 等 )。 

(7) 模型 预测 : 预测 模型 .机 器 学 习 、 建 模仿 真 。 

(8) 结果 呈现 : SHARES KRAF. 


2. 关键 技术 


大 数据 处 理 关 键 技术 一 般 包括 大 数据 采集 技术 ,大 数据 预 处 理 技术 ,大 数据 存储 及 管理 
技术 .开发 大 数据 安全 技术 .大 数据 分 析 及 挖掘 技术 ,大 数据 展现 与 应 用 技术 (大 数据 检索 、 
大 数据 可 视 化 ,大 数据 应 用 .大 数据 安全 等 ) 。 

(1) 大 数据 采集 技术 : 数据 是 指 通过 RFID 射频 ,传感器 、 社 交 网 络 交 互 及 移动 互联 网 
等 方式 获得 的 各 种 类 型 的 结构 化 、 半 结构 化 (或 称 为 弱 结构 化 ) 及 非 结 构 化 的 海量 数据 ,是 大 
数据 知识 服务 模型 的 根本 。 大 数据 采集 技术 重点 要 突破 分 布 式 高 速 高 可 靠 性 数据 采集 、 高 
速 数 据 全 映像 等 大 数据 收集 技术 ,高速 数据 解析 、 转 换 与 装载 等 大 数据 整合 技术 ,设计 质量 
评估 模型 ,开发 数据 质量 技术 。 

大 数据 采集 一 般 分 为 智能 感知 层 和 基础 支撑 层 。 智 能 感知 层 主要 包括 数据 传 感 体系 、 
网 络 通信 体系 、 传 感 适 配 体 系 、 智 能 识别 体系 及 软 硬 件 资源 接 入 系统 ,实现 对 结构 化 、 半 结构 
化 、 非 结构 化 的 海量 数据 的 智能 化 识别 、 定 位 、 跟 踪 、 接 入 传输、 信号 转换 监控、 初步 处 理 和 
管理 等 ,必须 着 重 掌握 针对 大 数据 源 的 智能 识别 ,感知 、 适 配 、 传 输 、 接 入 等 技术 。 基 础 支撑 
层 提供 大 数据 服务 平台 所 需 的 虚拟 服务 器 ,结构 化 、 半 结构 化 及 非 结构 化 数据 的 数据 库 及 物 
联网 资源 等 基础 支撑 环境 ,重点 攻克 分 布 式 虚拟 存储 技术 ,大 数据 获取 、 存 储 ,组织 ,分析 和 
决策 操作 的 可 视 化 接口 技术 ,大 数据 的 网 络 传输 与 压缩 技术 ,大 数据 隐私 保护 技术 等 。 

(2) 大 数据 预 处 理 技术 : 主要 完成 对 已 接收 数据 的 辨析 抽取、 清洗 等 操作 。 

O 抽取 : 因 获 取 的 数据 可 能 具有 多 种 结构 和 类 型 ,数据 抽取 过 程 可 以 帮助 我 们 将 复杂 
的 数据 转化 为 单一 的 或 者 便于 处 理 的 构 型 .以 达到 快速 分 析 处 理 的 目的 。 

@ 清洗 : 由 于 在 海量 数据 中 ,数据 并 不 全 是 有 价值 的 ,有 些 数 据 并 不 是 我 们 所 关心 的 
内 容 , 而 另 一 些 数 据 则 是 完全 错误 的 干扰 项 ,因此 要 对 数据 进行 过 滤 “ 去 噪 ” 从 而 提取 出 有 效 
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数据 。 

(3) 大 数据 存储 及 管理 技术 : 大 数据 存储 与 管理 要 用 存储 器 把 采集 到 的 数据 存储 起 
来 ,建立 相应 的 数据 库 ,并 进行 管理 和 调用 。 大 数据 存储 与 管理 技术 重点 解决 复杂 结构 化 、 
半 结 构 化 和 非 结构 化 大 数据 管理 与 处 理 技术 ; 主要 解决 大 数据 的 可 存储 、 可 表示 、 可 处 理 、 
可 靠 性 及 有 效 传输 等 几 个 关键 问题 ; 开发 可 靠 的 分 布 式 文件 系统 (DFS) 、 能 效 优化 的 存储 、 
计算 融入 存储 、 大 数据 的 去 宛 余 及 高 效 低 成 本 的 大 数据 存储 技术 ,突破 分 布 式 非 关 系 型 大 数 
据 管 理 与 处 理 技术 、 异 构 数 据 的 数据 融合 技术 、 数 据 组 织 技术 ,研究 大 数据 建 模 技 术 , 大 数据 
索引 技术 和 大 数据 移动 .备份 .复制 等 技术 ,开发 大 数据 可 视 化 技术 和 新 型 数据 库 技术 。 新 
型 数据 库 技术 可 将 数据 库 分 为 关系 型 数据 库 、 非 关系 型 数据 库 及 数据 库 缓存 系统 。 其 中 , 非 
关系 型 数据 库 主要 指 的 是 NoSQL, 又 分 为 键 值 数据 库 、 列 存 数据 库 、 图 存 数据 库 及 文档 数据 
库 等 类 型 。 关 系 型 数据 库 包 含 了 传统 关系 数据 库 系统 及 NewSQL 数据 库 。 

(4) 开发 大 数据 安全 技术 : 改进 数据 销毁 、 透 明 加 解密 、 分 布 式 访问 控制 ,数据 审计 等 
技术 ,突破 隐私 保护 和 推理 控制 .数据 真 伪 识 别 和 取证 、 数 据 持 有 完整 性 验证 等 技术 。 

G) 大 数据 分 析 及 挖掘 技术 : 大 数据 分 析 及 挖掘 技术 改进 已 有 数据 挖掘 和 机 器 学 习 技 
术 , 开 发 数据 网 络 挖掘 ,特异 群 组 挖掘 ,图 挖掘 等 新 型 数据 挖掘 技术 ,突破 基于 对 象 的 数据 连 
接 、 相 似 性 连接 等 大 数据 融合 技术 和 用 户 兴趣 分 析 、 网 络 行为 分 析 、 情 感 语义 分 析 等 面向 领 
域 的 大 数据 挖掘 技术 。 

数据 挖掘 就 是 从 大 量 的 \` 不 完全 的 \ 有 噪声 的 、 模 糊 的 .随机 的 实际 应 用 数据 中 ,提取 隐 
含 在 其 中 人 们 事先 不 知道 但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 

数据 挖掘 涉及 的 技术 方法 很 多 且 有 多 种 分 类 法 。 根 据 挖掘 任务 可 分 为 分 类 或 预测 模型 
发 现 数 据 总 结 、 聚 类 、 关 联 规则 发 现 、 序 列 模式 发 现 \ 依 赖 关 系 或 依赖 模型 发 现 、 异 常 和 趋势 
发 现 等 ; 根据 挖掘 对 象 可 分 为 关系 数据 库 、 面 向 对 象 数据 库 、 空 间 数 据 库 、 时 态 数据 库 、 文 本 
数据 源 、 多 媒体 数据 库 、 异 质数 据 库 、 遗 产 数据 库 及 环球 网 Web; 根据 挖掘 方法 可 粗 分 为 机 
器 学 习 方 法 、 统 计 方 法 、 神 经 网 络 方法 和 数据 库 方法 。 机 器 学 习 方法 可 细 分 为 归纳 学 习 方法 
(决策 树 ` 规 则 归纳 等 )、 基 于 范例 学 习 、 遗 传 算法 等 。 统 计 方 法 可 细 分 为 回归 分 析 ( 多 元 回 
归 、 自 回归 等 )、 判 别 分 析 ( 贝 叶 斯 判别 、 费 葡 尔 判别 、 非 参数 判别 等 )、 聚 类 分 析 ( 系 统 聚 类 、 动 
态 聚 类 等 ) ,探索 性 分 析 ( 主 元 分 析 法 、 相 关 分 析 法 等 ) 等 。 神 经 网 络 方法 细 分 为 前 向 神经 网 
络 (BP 算法 等 )、 自 组 织 神经 网 络 ( 自 组 织 特征 映射 .竞争 学 习 等 ) 等 。 数 据 库 方法 主要 是 多 
维 数据 分 析 或 OLAP 方法 ,另外 还 有 面向 属性 的 归纳 方法 。 

从 挖 据 任 务 和 挖掘 方法 的 角度 ,数据 挖掘 着 重 突破 以 下 几 个 方面 。 

D 可 视 化 分 析 。 数 据 可 视 化 无 论 是 对 普通 用 户 还 是 数据 分 析 专 家 ,都 是 最 基本 的 功 
能 。 数 据 图 像 化 可 以 让 数据 "说 话 ”, 让 用 户 直 观 地 感受 到 结果 。 

@ 数据 挖掘 算法 。 图 像 化 是 将 机 器 语言 翻译 给 人 们 看 ,而 数据 挖掘 算法 用 的 是 机 器 语 
言 。 分 割 、 集 群 、 孤 立 点 分 析 还 有 各 种 各 样 的 算法 使 我 们 可 以 精炼 数据 挖掘 价值 。 数 据 挖 
掘 算法 一 定 要 能 够 应 付 大 数据 的 量 , 同 时 还 应 具有 很 高 的 处 理 速度 。 

@ 预测 性 分 析 。 预 测 性 分 析 可 以 让 分 析 师 根据 图 像 化 分 析 和 数据 挖掘 的 结果 做 出 一 
些 前 脆性 判断 。 

@ 语义 引擎 。 语义 引擎 需要 设计 足够 的 人 工 智能 以 从 数据 中 主动 地 提取 信息 。 语 言 
处 理 技术 包括 机 器 翻译 ,情感 分 析 、 与 情 分 析 智能 输入 \ 问 答 系 统 等 。 
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@ 数据 质量 与 管理 。 数 据 质量 与 管理 是 管理 的 最 佳 实践 , 透 过 标准 化 流程 和 机 器 对 数 
据 进行 处 理 可 以 确保 获得 一 个 预 设 质量 的 分 析 结 果 。 

(6) 大 数据 展现 与 应 用 技术 : 大 数据 技术 能 够 将 隐藏 于 海量 数据 中 的 信息 和 知识 挖掘 
出 来 ,为 人 类 的 社会 经 济 活动 提供 依据 ,从 而 提高 各 个 领域 的 运行 效率 ,大 大 提高 整个 社会 
经 济 的 集约 化 程度 。 

在 我 国 ,大 数据 将 重点 应 用 于 商业 智能 政府 决策 .公共 服务 三 大 领域 。 例 如 ,商业 智能 
技术 ,政府 决策 技术 .电信 数据 信息 处 理 与 挖掘 技术 .电网 数据 信息 处 理 与 控 握 技术、 气象 信 
息 分 析 技术 、 环 境 监 测 技术 、 警 务 云 应 用 系统 (道路 监控 ,视频 监控 ,网 络 监控 ,智能 交通 、 反 
电信 诈骗 ,指挥 调度 等 公安 信息 系统 ) .大 规模 基因 序列 分 析 比 对 技术 Web 信息 挖掘 技术 、 
多 媒体 数据 并 行 化 处 理 技术 、 影 视 制作 泻 染 技术 、 其 他 各 种 行业 的 云 计算 和 海量 数据 处 理应 
用 技术 等 。 大 数据 和 云 计算 之 间 的 区 别 在 于 : 首先 大 数据 和 云 计算 在 概念 上 不 同 , 云 计算 
改变 了 IT, 而 大 数据 改变 了 业务 。 其 次 大 数据 和 云 计算 的 目标 受众 不 同 , 如 在 一 家 公司 中 ， 
那么 云 计算 就 是 技术 层 , 大 数据 就 是 业务 层 。 但 需要 指出 的 是 大 数据 对 云 计 算 有 一 定 的 依 
赖 性 。 


1.4 大 数据 分 析 的 五 种 典型 工具 简介 


大 数据 分 析 是 在 研究 大 量 的 数据 的 过 程 中 寻找 模式 ,相关 性 和 其 他 有 用 的 信息 ,以 帮助 
企业 更 好 地 适应 变化 ,并 做 出 更 明智 的 决策 。 


1. Hadoop 


Hadoop 是 一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 软件 框架 ,是 一 个 能 够 让 用 户 轻 松 
架构 和 使 用 的 分 布 式 计算 平台 。 用 户 可 以 轻松 地 在 Hadoop 上 开发 和 运行 处 理 海量 数据 的 
应 用 程序 。 它 主要 有 以 下 几 个 特点 : 

(1) 高 可 靠 性 。Hadoop 按 位 存储 和 处 理 数 据 的 能 力 值得 人 们 信赖 。 

(2) 高 扩展 性 。Hadoop 是 在 可 用 的 计算 机 集 徐 间 分 配 数 据 并 完成 计算 任务 的 ,这 些 集 
徐 可 以 方便 地 扩展 到 数 以 千 计 的 结 点 中 。 

(3) 高 效 性 。Hadoop 能 够 在 结 点 之 间 动 态 地 移动 数据 ,并 保证 各 个 结 点 的 动态 平衡 ， 
因此 处 理 速 度 非常 快 。 

(4) 容错 性 。Hadoop 能 够 自动 保存 数据 的 多 个 副本 ,并 且 能 够 自动 将 失败 的 任务 重新 
分 配 。 

Hadoop 带 有 用 Java 语言 编写 的 框架 ,因此 运行 在 Linux 平台 上 是 非常 理想 的 。 
Hadoop 上 的 应 用 程序 也 可 以 使 用 其 他 语言 编写 .如 C++ 。 




















2. Spark 


Spark 是 一 个 基于 内 存 计算 的 开源 集群 计算 系统 ,目的 是 更 快速 地 进行 数据 分 析 。 
Spark 由 加 州 伯克利 大 学 AMP 实验 室 Matei 为 主 的 小 团队 使 用 Scala 开发 ,其 核心 部 分 的 
代码 只 有 63 Scala 文件 ,非常 轻 量 级 。Spark 提供 了 与 Hadoop 相似 的 开源 集群 计算 环 
境 ,但 基于 内 存 和 和 迭代 优化 的 设计 ,Spark 在 某 些 工作 负载 上 表现 更 优秀 。 图 1-7 为 Spark 
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与 Hadoop 的 对 比 示意 。 

在 2014 上 半年 ,Spark 开源 生态 系统 得 到 了 大 幅 增长 ,已 成 为 大 数据 领域 最 活跃 的 开 
源 项 目 之 一 。 那 么 Spark 究竟 以 什么 吸引 了 如 此 多 的 关注 ? 

(1) 轻 量 级 快速 处 理 。 着 眼 大 数据 处 理 , 速 度 往往 被 置 于 第 一 位 。Spark 允许 Hadoop 
集群 中 的 应 用 程序 在 内 存 中 以 100 倍 的 速度 运行 ,即使 在 磁盘 上 运行 也 能 快 10 ffo Spark 
通过 减少 磁盘 IO 来 达到 性 能 提升 ,它们 将 中 间 处 理 数据 全 部 放 到 了 内 存 中 。 

4000 
I 


3500 PPR 
110s/ 迁 代 
É 3000 | B 


= 2500 

Č 2000 — — — "Hadoop 

$ 1500 I mSpark 
1000 
500 


x EEEE ham 


5 20 30 第 二 次 迭代 1s 
BAM 


图 1-7 Spark 与 Hadoop 对 比 


























Spark 使 用 了 RDD(Resilient Distributed Dataset) 的 理念 ,这 人 允许 它 可 以 透明 地 在 内 存 
中 存储 数据 ,只 在 需要 时 才 持 久 化 到 磁盘 。 这 种 做 法 大 大 地 减少 了 数据 处 理 过 程 中 磁盘 的 
读 写 ,大 幅度 地 降低 了 所 需 时 间 。 

(2) 易于 使 用 ,Spark 支持 多 语言 。Spark 允许 Java、Scala 及 Python 等 语言 ,这 允许 开 
发 者 在 自己 熟悉 的 语言 环境 下 进行 工作 。 它 自 带 了 80 多 个 高 等 级 操作 符 ,允许 在 shell 中 
进行 交互 式 查询 。 

(3) 支持 复杂 查询 。 在 简单 的 map 及 reduce 操作 之 外 ,Spark 还 支持 SQL 查询 \ 流 式 
查询 及 复杂 查询 。 同 时 ,用 户 可 以 在 同一 个 工作 流 中 无 颖 地 搭配 这 些 能 力 。 

(4) 实时 的 流 处 理 。 相 较 于 MapReduce 只 能 处 理 离线 数据 ,Spark 支持 实时 的 流 计算 。 
Spark 依赖 Spark Streaming 对 数据 进行 实时 的 处 理 ,当然 在 YARN 之 后 Hadoop 也 可 以 
借助 其 他 的 工具 进行 流 式 计算 。 对 于 Spark Streaming,Cloudera 的 评价 是 : 

简单 : 轻 量 级 且 具 备 功能 强大 的 API, Sparks Streaming 允许 快速 开发 流 应 用 程序 。 

容错 : 不 像 其 他 流 解决 方案 ,例如 Storm. 无须 额外 的 代码 和 配置 , Spark Streaming 就 
可 以 做 大 量 的 恢复 和 交付 工作 。 

集成 ; 为 流 处 理 和 批 处 理 重用 了 同样 的 代码 ,甚至 可 以 将 流 数据 保存 到 历史 数据 中 。 

(5) 可 以 与 Hadoop 和 已 存 Hadoop 数据 整合 。Spark 可 以 独立 运行 ,除了 可 以 运行 在 
当下 的 YARN 集群 管理 之 外 , 它 还 可 以 读 取 已 有 的 任何 Hadoop 数据 。 这 是 个 非常 大 的 优 
势 , 它 可 以 运行 在 任何 Hadoop 数据 源 上 ,例如 HBase, HDFS 等 。 这 个 特性 让 用 户 可 以 轻 
易 迁 移 已 有 Hadoop 应 用 (如 果 合 适 的 话 ) 。 

(6) 活跃 和 无 限 壮大 的 社区 。Spark 起 源 于 2009 年 ,当下 已 有 超过 50 个 机 构 250 个 工 
程 师 贡 献 过 代码 ,和 2014 年 6 月 相 比 .代码 行 数 几 乎 扩大 三 们 ,这 是 个 令 人 艳羡 的 增长 。 





3. HPCC 


HPCC( 高 性 能 计算 与 通信 ?是 美国 实施 信息 高 速 公路 而 实施 的 计划 ,该 计划 的 实施 将 
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耗资 百 亿美 元 ,其 主要 目标 是 开发 可 扩展 的 计算 系统 及 相关 软件 ,以 支持 太 位 级 网 络 传输 性 
能 ; 开发 千 兆 比特 网 络 技术 ,扩展 研究 和 教育 机 构 及 网 络 连接 能 力 。 该 项 目 主要 由 以 下 5 
部 分 组 成 。 

(1) HPCS( 高 性 能 计算 机 系统 ) ,内容 包 括 今后 几 代 计 算 机 系统 的 研究 .系统 设计 工具 、 
先进 的 典型 系统 及 原 有 系统 的 评价 等 。 

(2) ASTA( 先 进 软件 技术 与 算法 ) ,内容 有 巨大 挑战 问题 的 软件 支撑 、 新 算法 设计 、 软 
件 分 支 与 工具 .计算 及 高 性 能 计算 研究 中 心 等 。 

G) NREN( 国 家 科研 与 教育 网 格 ) ,内 容 有 中 接站 及 10 亿 位 级 传输 的 研究 与 开发 。 

(4) BRHR( 基 本 研究 与 人 类 资源 ) ,内 容 有 基础 研究 .培训 教育 及 课程 教材 ,BRHR 是 
通过 奖励 调查 者 开始 的 ,长 期 的 调查 在 可 升级 的 高 性 能 计算 中 增加 创新 意识 流 ,通过 教育 、 
高 性 能 的 计算 训练 和 通信 来 加 大 熟练 的 和 训练 有 素 的 人 员 的 联营 ,为 调查 研究 活动 提供 必 
需 的 基础 架构 。 

(5) IITA( 信 息 基础 结构 技术 和 应 用 ) ,目的 在 于 保证 美国 在 先进 信息 技术 开发 方面 的 
领先 地 位 。 

4. Storm 


Storm 是 一 个 开源 软件 ,一 个 分 布 式 、 容 错 的 实时 计算 系统 。Storm 可 以 非常 可 靠 地 处 
理 庞大 的 数据 流 , 用 于 处 理 Hadoop 的 批量 数据 。Storm 很 简单 ,支持 许多 种 编程 语言 ,使 
用 起 来 非常 有 趣 。Storm 由 Twitter 开源 而 来 ,其 他 知名 的 应 用 企业 包括 Groupon、 淘 宝 、 
支付 宝 、 阿 里 巴巴 、 乐 元 素 、Admaster 等 。 

Storm 有 许多 应 用 领域 ,包括 实时 分 析 、 在 线 机 器 学 习 \ 不 停顿 的 计算 、 分 布 式 RPC( 远 
过 程 调用 协议 ,一 种 通过 网 络 从 远程 计算 机 程序 上 请 求 服务 的 协议 )、ETL 等 。Storm 的 处 
理 速 度 惊人 ,经 测试 ,每 个 结 点 每 秒 钟 可 以 处 理 100 万 个 数据 元 组 。Storm 具有 可 扩展 、 容 
错 、 容 易 设置 和 操作 的 特点 。 


5. Apache Drill 


为 了 帮助 企业 用 户 寻找 更 为 有 效 、 加快 Hadoop 数据 查询 的 方法 ,Apache 软件 基金 会 
发 起 了 一 项 名 为 Drill 的 开源 项 目 。Apache Drill 实现 了 Google's Dremel, 

据 Hadoop 厂商 MapR Technologies 公司 产品 经 理 Tomer Shiran 介绍 ,Drill 已 经 作为 
Apache 孵化 器 项 目 来 运作 ,将 面向 全 球 软件 工程 师 持续 推广 。 

该 项 目 将 创建 出 开源 版 本 的 Google Dremel Hadoop 工具 (Google 使 用 该 工具 来 为 
Hadoop 数据 分 析 工 具 的 互联 网 应 用 提速 )。 而 Drill 将 有 助 于 Hadoop 用 户 实现 更 快 查询 
海量 数据 集 的 目的 。 

Drill 项 目 其 实 也 是 从 Google 的 Dremel 项 目 中 获得 灵感 的 ,该 项 目 帮 助 Google 实现 
海量 数据 集 的 分 析 处 理 , 包 括 分 析 抓 取 Web 文档 、 跟 踪 安 装 在 Android Market 上 的 应 用 程 
序数 据 、 分 析 垃 圾 邮件 、 分 析 Google 分 布 式 构建 系统 上 的 测试 结果 等 。 

通过 开发 Apache Drill 开源 项 目 , 组 织 机 构 将 有 望 建立 Drill 所 属 的 API 接口 和 灵活 强 
大 的 体系 架构 ,从 而 帮助 支持 广泛 的 数据 源 、 数 据 格式 和 查询 语言 。 
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1.5 大 数据 未 来 发 展 趋势 


大 数据 逐渐 成 为 我 们 生活 的 一 部 分 , 它 既 是 一 种 资源 ,又 是 一 种 工具 ,让 我 们 更 好 地 探 
索 世 界 和 认识 世界 。 大 数据 提供 的 并 不 是 最 终 答案 ,只 是 参考 答案 , 它 为 我 们 提供 的 是 暂时 
帮助 ,以 便 等 待 更 好 的 方法 和 答案 出 现 。 


1.5.1 数据 资源 化 


资源 化 是 指 大 数据 成 为 企业 和 社会 关注 的 重要 战略 资源 ,并 已 成 为 大 家 争 抢 的 新 焦点 ， 
数据 将 逐渐 成 为 最 有 价值 的 资产 。 

随 着 大 数据 应 用 的 发 展 , 大 数据 资源 成 为 重要 的 战略 资源 ,数据 成 为 新 的 战略 制高点 。 
资源 不 仅仅 只 是 指 看 得 见 、 摸 得 着 的 实体 ,如 煤 、 石 油 . 矿 产 等 ,大 数据 已 经 演变 成 不 可 或 缺 
的 资源 。《 华 尔 街 日 报 ) 在 题 为 (大 数据 ,大 影响 ) 的 报告 中 提 到 ,数据 就 像 货 币 或 者 黄金 一 
样 ,已 经 成 为 一 种 新 的 资产 类 别 。 

大 数据 作为 一 种 新 的 资源 ,具有 其 他 资源 所 不 具备 的 优点 ,如 数据 的 再 利用 、 开 放 性 、 可 
扩展 性 和 潜在 价值 。 数 据 的 价值 不 会 随 着 它 的 使 用 而 减少 ,而 是 可 以 不 断 地 被 处 理 和 利用 。 


1.5.2 数据 科学 和 数据 联盟 的 成 立 


1. 催生 新 的 学 科 和 行业 


数据 科学 将 成 为 一 门 专门 的 学 科 , 被 越 来 越 多 的 人 所 认 知 。 越 来 越 多 的 高 校 开设 了 与 
大 数据 相关 的 学 科 课 程 ,为 市 场 和 企业 培养 人 才 。 

一 个 新 行业 的 出 现 , 必 将 会 增加 工作 职位 的 需求 ,大 数据 催生 了 一 批 与 之 相关 的 新 的 就 
业 岗 位 。 例 如 ,大 数据 分 析 师 、 大 数据 算法 工程 师 、 数 据 产品 经 理 \ 数 据 管理 专家 等 。 因 此 ， 
具有 丰富 经 验 的 大 数据 相关 人 才 将 成 为 稀缺 资源 。 


2. 数据 共享 


大 数据 相关 技术 的 发 展 将 会 创造 出 一 些 新 的 细 分 市 场 。 针 对 不 同 的 行业 将 会 出 现 不 同 
的 分 析 技 术 。 但 是 对 于 大 数据 来 说 ,数据 的 多 少 虽然 不 意味 着 价值 更 高 ,但 是 数据 越 多 对 一 
个 行业 的 分 析 价值 越 有 利 。 

以 医疗 行业 为 例 , 如 果 每 个 医院 想 要 获得 更 多 病情 特征 库 及 药 效 信息 ,就 需要 对 数据 进 
行 分 析 ,这样 经 过 分 析 之 后 就 能 从 数据 中 获得 相应 的 价值 。 如 果 想 获得 更 多 的 价值 ,就 需要 
对 全 国 甚至 全 世界 的 医疗 信息 进行 共享 。 只 有 这 样 才能 通过 对 整个 医疗 平台 的 数据 进行 分 
析 , 获 取 更 准确 更 有 利 的 价值 。 因 此 ,数据 可 能 成 为 一 种 共享 的 趋势 。 


1.5.3 大 数据 隐私 和 安全 问题 


d) 大 数据 引发 个 人 隐私 、 企 业 和 国家 安全 问题 。 
大 数据 时 代 将 引发 个 人 隐私 安全 问题 。 在 大 数据 时 代 , 用 户 的 个 人 隐私 数据 可 能 在 不 
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经 意 间 就 被 泄露 。 例 如 ,网 站 密码 泄露 .系统 漏洞 导致 用 户 资料 被 盗 . 手 机 里 的 APP 暴露 用 
户 的 个 人 信息 等 。 在 大 数据 领域 ,一 些 用 户 认为 根本 不 重要 的 信息 很 有 可 能 暴露 用 户 的 近 
期 状况 , 带 来 安全 隐患 。 

大 数据 时 代 , 企 业 将 面临 信息 安全 的 挑战 。 企 业 不 仅 要 学 习 如 何 挖掘 数据 价值 ,还 要 考 
上 处 如何 应 对 网 络 攻击 、 数 据 泄露 等 安全 风险 ,并 且 建 立 相关 的 预案 。 在 企业 用 数据 挖掘 和 数 
据 分 析 获 取 商 业 价 值 的 同时 ,黑客 也 利用 这 些 数据 技术 向 企业 发 起 攻击 。 因 此 ,企业 必须 制 
定 相应 的 策略 来 应 对 大 数据 带 来 的 信息 安全 挑战 。 

大 数据 时 代 , 大 数据 安全 应 该 上 升 为 国家 安全 。 数 据 安全 的 威胁 无 处 不 在 。 国 家 的 基 
础 设施 和 重要 机 构 所 保存 的 大 数据 信息 ,如 与 石油 .天然 气管 道 , 水 电 、 交 通 、 军 事 等 相关 的 
数据 信息 ,都 有 可 能 成 为 黑客 攻击 的 目标 。 

(2) 正确 合理 利用 大 数据 ,促进 大 数据 产业 的 健康 发 展 。 

大 数据 时 代 , 必 须 对 数据 安全 和 隐私 进行 有 效 的 保护 ,具体 方法 如 下 。 

D 从 用 户 的 角度 ,积极 探索 ,加 大 个 人 隐私 保护 力度 。 数 据 来 源 于 互联 网 上 无 数 用 户 
产生 的 数据 信息 ,因此 ,建议 用 户 在 运用 互联 网 或 者 APP 时 保持 高 度 警惕 。 

@ 从 法 律 的 角度 ,提高 安全 意识 ,及 时 出 台 相 关 政 策 , 制 定 相关 政策 法 规 , 完 善 立法 。 
国家 需要 有 专门 的 法 规 来 为 大 数据 的 发 展 扫除 障碍 ,必须 健全 大 数据 隐私 和 安全 方面 的 法 
律 法 规 。 

@ 从 数据 使 用 者 角度 ,数据 使 用 者 要 以 负责 的 态度 使 用 数据 ,我 们 需要 把 进行 隐私 保 
护 的 责任 从 个 人 转移 到 数据 使 用 者 身上 。 政 府 和 企业 的 信息 化 建设 必须 拥有 统一 的 规划 和 
标准 ,只 有 这 样 才能 有 效 地 保护 公民 和 企业 隐私 。 

@ 从 技术 角度 ,加 快 数据 安全 技术 研发 ,尤其 应 加 强 云 计 算 安全 研究 ,保障 云 安 全 。 


1.5.4 开源 软件 成 为 推动 大 数据 发 展 的 动力 


大 数据 获得 动力 的 关键 在 于 开放 源 代 码 ,帮助 分 解 和 分 析 数 据 。 开 源 软件 的 盛行 不 会 
抑制 商业 软件 的 发 展 。 相 反 , 开 源 软件 将 会 给 基础 架构 硬件 .应 用 程序 开发 工具 ,应 用 服务 
等 各 个 方面 相关 领域 带 来 更 多 的 机 会 。 

从 技术 的 潮流 来 看 ,无 论 是 大 数据 还 是 云 计 算 ,其实 推 动 技术 发 展 的 主要 力量 都 来 源 于 
开源 软件 。 使 用 开源 软件 有 诸多 的 优势 ,之 所 以 这 么 说 ,是 因为 开源 的 代码 很 多 人 在 看 、 在 
维护 \ 在 检查 。 了 解 开源 软件 和 开源 模式 ,将 成 为 一 个 重要 的 趋势 。 


1.5.5 大 数据 在 多 方位 改善 我 们 的 生活 


大 数据 作为 一 种 重要 的 战略 资产 ,已 经 不 同 程度 地 渗透 到 每 个 行业 领域 和 部 门 。 现 在 ， 
通过 大 数据 的 力量 ,用 户 希望 掌握 真正 的 便捷 信息 ,从 而 让 生活 更 有 趣 。 

例如 ,在 医疗 卫生 行业 ,能 够 利用 大 数据 避免 过 度 治疗 减少 错误 治疗 和 重复 治疗 ,从 而 
降低 系统 成 本 、 提 高 工作 效率 、 改 进 和 提升 治疗 质量 ; 在 健康 方面 ,我 们 可 以 利用 智能 手 环 
来 对 睡眠 模式 进行 检测 和 追踪 ,用 智能 血压 计 来 监控 老人 的 身体 状况 。 在 交通 方面 ,我 们 可 
以 通过 智能 导航 GPS 数据 来 了 解 交通 状况 ,并 根据 交通 拥挤 情况 及 时 调整 路 径 。 同 时 ,大 
数据 也 将 成 为 智能 家 居 的 核心 。 
































>. 大 EA 技术 概论 


大 数据 也 将 促进 智慧 城市 的 发 展 , 是 智慧 城市 的 核心 引擎 。 智 慧 医疗 ,智慧 交通 、 智 慧 
安防 等 ,都 是 以 大 数据 为 基础 的 智慧 城市 的 应 用 领域 。 大 数据 将 多 方位 改善 我 们 的 生活 。 


本 章 小 结 


近年 来 大 数据 应 用 带 来 了 令 人 瞩目 的 成 绩 。 作 为 新 的 重要 资源 ,世界 各 国都 在 加 快 大 
数据 的 战略 布局 ,制定 战略 规划 。 美 国 奥巴马 政府 发 起 了 《大 数据 研究 和 发 展 倡议 》, 斥 资 2 
亿美 元 用 于 大 数据 研究 ; 英国 政府 预计 在 大 数据 和 节能 计算 研究 上 投资 1. 89 亿 英镑 ; 法 国 
政府 宣布 投入 1150 万 欧元 ,用 于 7 个 大 数据 市 场 研发 项 目 ; 日 本 在 新 一 轮 IT 振兴 计划 中 ， 
将 发 展 大 数据 作为 国家 战略 层面 提出 ,重点 关注 大 数据 应 用 技术 ,如 社会 化 媒体 、 新 医疗 、 交 
通 拥堵 治理 等 公共 领域 的 应 用 。 中 国 的 基础 研究 大 数据 服务 平台 应 用 示范 项 目 正 在 启动 ， 
有 关 部 门 正在 积极 研究 相关 发 展 目标 、 发 展 原则 、 关 键 技 术 等 方面 的 顶层 设 计 。 

目前 我 国 大 数据 产业 还 处 于 发 展 初期 ,市 场 规模 仍然 比较 小 ,2012 年 仅 为 4.5 亿 元 ,而 
且 主 导 厂 商 仍 以 外 企 居多 。 据 估计 ,2016 年 我 国 大 数据 应 用 的 整体 市 场 规模 将 突破 百 亿 元 
量 级 ,未 来 将 形成 全 球 最 大 的 大 数据 产业 带 。 

总 而 言 之 ,大 数据 技术 的 发 展 必 将 解 开 宇宙 起 源 的 奥秘 和 对 人 类 社会 未 来 发 展 的 趋势 
有 推动 作用 。 

【注释 】 

1. 联机 事务 处 理 系统 (On-Line Transaction Processing, OLTP); 也 称 为 面向 交易 的 处 理 系统 ,其 基本 
特征 是 顾客 的 原始 数据 可 以 立即 传送 到 计算 中 心 进行 处 理 , 并 在 很 短 的 时 间 内 给 出 处 理 结果 。 

2. 电磁 兼容 性 (Electromagnetic Compatibility, EMC) : 是 指 设备 或 系统 在 其 电磁 环境 中 符合 要 求 运行 
并 不 对 其 环境 中 的 任何 设备 产生 无 法 忍受 的 电磁 骚扰 的 能 力 。 

3. 互联 网 数据 中 心 (Internet Data Center, IDC): 就 是 电信 部 门 利 用 已 有 的 互联 网 通信 线路 .带宽 资 
源 , 建 立 标准 化 的 电信 专业 级 机 房 环 境 , 为 企业 ,政府 提供 服务 器 托管 .租用 以 及 相关 增值 等 方面 的 全 方位 
服务 。 

4. ETL(Extraction Transformation Loading): 即 数据 抽取 (Extract) .转换 (Transform) .装载 (Load) 
的 过 程 , 它 是 构建 数据 仓库 的 重要 环节 。ETL 是 将 业务 系统 的 数据 经 过 抽取 、 清 洗 、 转 换 之 后 加 载 到 数据 
仓库 的 过 程 , 目 的 是 将 企业 中 的 分 散 、 零 乱 、. 标 准 不 统一 的 数据 整合 到 一 起 ,为 企业 决策 提供 分 析 依据 。 

5. NewSQL: 是 对 各 种 新 的 可 扩展 /高 性 能 数据 库 的 简称 ,这 类 数据 库 不 仅 具 有 NoSQL 对 海量 数据 
的 存储 管理 能 力 , 还 保持 了 传统 数据 库 支 持 ACID 和 SQL 等 特性 。NewSQL 是 指 这 样 一 类 新 式 的 关系 型 
数据 库 管理 系统 ,针对 OLTP( 读 - 写 ) 工 作 负载 .追求 提供 和 NoSQL 系统 相同 的 扩展 性 能 , 且 仍 然 保 持 
ACID 和 SQL 等 特性 。 

6. ACID: 指数 据 库 事务 正确 执行 的 四 个 基本 要 素 , 包 含 原子 性 (Atomicity) .一 致 性 (Consistency)、 隔 
离 性 (Tsolation) ,持久 性 (Durability) 。 一 个 支持 事务 (Transaction) 的 数据 库 ,必须 具有 这 四 种 特性 ,否则 在 
事务 过 程 当 中 无 法 保证 数据 的 正确 性 ,交易 过 程 极 可 能 达 不 到 交易 方 的 要 求 。 
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内 容 与 要 求 


本 章 主要 介绍 了 大 数据 采集 的 概念 .大 数据 采集 的 数据 来 源 和 技术 方法 ,大 数据 预 
处 理 的 方法 ,以 及 大 数据 采集 及 预 处 理 的 工具 。 

大 数据 采集 中 要 理解 大 数据 采集 的 基本 概念 ; 掌握 大 数据 采集 的 数据 来 源 , 包 括 商 
业 数 据 、 互 联网 数据 与 物 联网 数据 ; 了 解 大 数据 采集 的 技术 方法 ,包括 系统 日 志 采 集 方 
法 、 对 非 结 构 化 数据 的 采集 和 其 他 数据 采集 方法 。 

大 数据 的 预 处 理 中 了 解 大 数据 预 处 理 的 方法 ,包括 数据 清洗 .数据 集成 ,数据 变换 和 
数据 规约 。 

大 数据 采集 及 预 处 理 的 工具 中 了 解 常用 工具 ,包括 Flume, Logstash、 Kibana、 
Ceilometer 和 Zipkin 等 。 





重点 、 难 点 


本 章 的 重点 是 大 数据 采集 的 概念 ,大 数据 采集 的 数据 来 源 和 技术 方法 。 本 章 的 难点 
是 大 数据 预 处 理 的 方法 。 














大 数据 环境 下 ,数据 的 来 源 、 种 类 非常 多 。 其 中 对 数据 存储 和 处 理 的 需求 量 大 ,数据 表 
达 的 要 求 高 ,因此 数据 处 理 的 高 效 性 与 可 用 性 非常 重要 。 为 此 必须 在 数据 的 源头 即 数据 采 
集 上 把 好 关 , 其 中 数据 源 的 选择 和 原始 数据 的 采集 方法 是 大 数据 采集 的 关键 。 本 章 着 重 介 
绍 大 数据 的 采集 和 预 处 理 。 
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2.1 大 数据 采集 


2.1.1 大 数据 采集 概述 


大 数据 的 数据 采集 是 在 确定 用 户 目标 的 基础 上 ,针对 该 范围 内 所 有 结构 化 、 半 结构 化 和 
非 结构 化 的 数据 的 采集 。 采 集 后 对 这 些 数据 进行 处 理 ,从 中 分 析 和 挖掘 出 有 价值 的 信息 。 
在 大 数据 的 采集 过 程 中 ,其 主要 特点 和 面临 的 挑战 是 成 千 上 万 的 用 户 同 时 进行 访问 和 操作 
而 引起 的 高 并 发 数 。 如 12306 火车 票 售票 网 站 在 2015 年 春运 火车 票 售 卖 的 最 高 峰 时 ,网 站 
访问 量 (PV 值 ) 在 一 天 之 内 达到 破 纪 录 的 297 亿 次 。 

大 数据 出 现 之 前 ,计算 机 所 能 够 处 理 的 数据 都 需要 在 前 期 进行 相应 的 结构 化 处 理 , 并 存 
储 在 相应 的 数据 库 中 。 但 大 数据 技术 对 于 数据 的 结构 要 求 大 大 降低 ,互联 网 上 人 们 留 下 的 
社交 信息 、 地 理 位 置信 息 ,行为 习惯 信息 、 偏 好 信息 等 各 种 维度 的 信息 都 可 以 实时 处 理 , 传 统 
的 数据 采集 与 大 数据 的 数据 采集 对 比如 表 2-1 所 示 。 

表 2-1 传统 的 数据 采集 与 大 数据 的 数据 采集 对 比 

















项 H 传统 的 数据 采集 大 数据 的 数据 采集 

数据 来 源 ”| 来 源 单一 ,数据 量 相 对 大 数据 较 小 | 来 源 广泛 ,数据 量 巨大 

数据 类 型 | 结构 单一 数据 类 型 丰富 ,包括 结构 化 、 半 结构 化 、 非 结构 化 
数据 处 理 | 关系 型 数据 库 和 并 行 数据 仓库 分 布 式 数据 库 


2.1.2 大 数据 采集 的 数据 来 源 


按照 数据 来 源 划分 ,大 数据 的 三 大 主要 来 源 为 商业 数据 .互联 网 数据 与 物 联网 数据 。 其 
中 ,商业 数据 来 自 于 企业 ERP 系统 各 种 POS 终端 及 网 上 支付 系统 等 业务 系统 ; 互联 网 数 
据 来 自 于 通信 记录 及 QQ, 微 信 、 微 博 等 社交 媒体 ; 物 联 网 数据 来 自 于 射频 识别 装置 、 全 球 
定位 设备 ,传感器 设备 ,视频 监控 设备 等 。 


1. 商业 数据 


商业 数据 是 指 来 自 于 企业 ERP 系统 、 各 种 POS 终端 及 网 上 支付 系统 等 业务 系统 的 数 
据 ,商业 数据 是 现在 最 主要 的 数据 来 源 渠 道 。 

世界 上 最 大 的 零售 商 沃 尔 玛 每 小 时 收集 到 2. 5PB 数据 ,存储 的 数据 量 是 美国 国会 图 书 
馆 的 167 倍 。 沃 尔 玛 详细 记录 了 消费 者 的 购买 清单 消费 额 \ 购 买 日 期 \ 购 买 当 天 天 气 和 气 
温 , 通 过 对 消费 者 的 购物 行为 等 非 结构 化 数据 进行 分 析 , 发 现 商品 关联 ,并 优化 商品 陈列 。 
沃尔玛 不 仅 采集 这 些 传统 商业 数据 ,还 将 数据 采集 的 触角 伸 入 到 了 社交 网 络 数 据 。 当 用 户 
在 Facebook 和 Twitter 谈论 某 些 产 品 或 者 表达 某 些 喜好 时 ,这 些 数 据 都 会 被 沃尔玛 记录 下 
来 并 加 以 利用 。 

Amazon( 亚 马 逊 ) 公 司 拥有 全 球 零售 业 最 先进 的 数字 化 仓库 ,通过 对 数据 的 采集 .整理 
和 分 析 , 可 以 优化 产品 结构 ,开展 精确 营销 和 快速 发 货 。 另 外 ,Amazon 的 Kindle 电子 书城 
中 积累 了 上 千 万 本 图 书 的 数据 ,并 完整 记录 着 读者 们 对 图 书 的 标记 和 笔记 , 若 加 以 分 析 ， 





<<< 
Amazon 能 从 中 得 到 哪 类 读者 对 哪些 内 容 感 兴趣 ,从 而 能 给 读者 做 出 准确 的 图 书 推荐 。 
2. 互联 网 数据 


互联 网 数据 是 指 网 络 空间 交互 过 程 中 产生 的 大 量 数据 ,包括 通信 记录 及 QQ, Hefei 
博 等 社交 媒体 产生 的 数据 ,其 数据 复杂 且 难 以 被 利用 。 例 如 ,社交 网 络 数据 所 记录 的 大 部 分 
是 用 户 的 当前 状态 信息 ,同时 还 记录 着 用 户 的 年 龄 ,性 别 、 所 在 地 、 教 育 、 职 业 和 兴趣 等 。 

互联 网 数据 具有 大 量化 、 多 样 化 、 快 速 化 等 特点 。 

(1) 大 量化 : 在 信息 化 时 代 背 景 下 网 络 空间 数据 增长 迅猛 ,数据 集合 规模 已 实现 从 GB 
到 PB 的 飞跃 ,互联 网 数据 则 需要 通过 ZB 表示 。 在 未 来 互联 网 数据 的 发 展 中 还 将 实现 近 
50 倍 的 增长 ,服务 器 数量 也 将 随 之 增长 ,以 满足 大 数据 存储 。 

(2) 多 样 化 : 互联 网 数据 的 类 型 多 样 化 ,例如 结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数 
据 。 互 联网 数据 中 的 非 结构 化 数据 正在 飞速 增长 , 据 相 关 调 查 统计 ,在 2012 年 底 非 结构 化 
数据 在 网 络 数据 总 量 中 占 77% 左 右 。 非 结构 化 数据 的 产生 与 社交 网 络 以 及 传感器 技术 的 
发 展 有 着 直接 联系 。 

(3) 快速 化 : 互联 网 数据 一 般 情况 下 以 数据 流 形式 快速 产生 , 且 具 有 动态 变化 的 特征 ， 
其 时 效 性 要 求 用 户 必须 准确 掌握 互联 网 数据 流 才能 更 好 地 利用 这 些 数据 。 

互联 网 是 大 数据 信息 的 主要 来 源 , 能 够 采集 什么 样 的 信息 ,采集 到 多 少 信 息 及 哪些 类 型 
的 信息 ,直接 影响 着 大 数据 应 用 功能 最 终 效 果 的 发 挥 。 而 信息 数据 采集 需要 考虑 采集 量 . 采 
集 速 度 、 采 和 集 范围 和 采集 类 型 ,信息 数据 采集 速度 可 以 达到 秒 级 以 上 ; 采集 范围 涉及 微 博 、 
论坛 .博客 ,新 闻 网 、 电 商 网 站 、 分 类 网 站 等 各 种 网 页 ; 而 采集 类 型 包括 文本 、 数 据 ,URL、 图 


3. 物 联 网 数据 


物 联 网 是 指 在 计算 机 互联 网 的 基础 上 .利用 射频 识别 ,传感器 红外 感应 器 \ 无 线 数据 通 
信 等 技术 ,构造 一 个 覆盖 世界 上 万 事 万 物 的 The Internet of Things, 也 就 是 “实现 物 物 相连 
的 互联 网 络 ”。 其 内 涵 包含 两 个 方面 意思 : 一 是 物 联 网 的 核心 和 基础 仍 是 互联 网 ,是 在 互联 
网 基础 之 上 延伸 和 扩展 的 一 种 网 络 ; 二 是 其 用 户 端 延 伸 和 扩展 到 了 任何 物品 与 物品 之 间 进 
行 信息 交换 和 通信 。 物 联网 的 定义 是 : 通过 射频 识别 (Radio Frequency Identification， 
REFID) 装 置 .传感器 .红外 感应 器 .全球 定位 系统 .激光 扫描 器 等 信息 传 感 设 备 , 按 约定 的 协 
议 , 把 任何 物品 与 互联 网 相连 接 , 以 进行 信息 交换 和 通信 ,从 而 实现 智慧 化 识别 定位、 跟踪、 
监控 和 管理 的 一 种 网 络 体系 。 

物 联网 数据 是 除了 人 和 服务 器 之 外 ,在 射频 识别 .物品 .设备 .传感器 等 结 点 产生 的 大 量 
数据 ,包括 射频 识别 装置 .音频 采集 器 、 视 频 采 集 器 传感器、 全 球 定位 设备 .办 公设 备 、 家 用 
设备 和 生产 设备 等 产生 的 数据 。 物 联网 数据 的 特点 主要 包括 以 下 几 点 。 

(1) 物 联 网 中 的 数据 量 更 大 。 物 联网 的 最 主要 特征 之 一 是 结 点 的 海量 性 ,其 数量 规模 
远大 于 互联 网 ; 物 联网 结 点 的 数据 生成 频率 远 高 于 互联 网 ,如 传感器 结 点 多 数 处 于 全 时 工 
作 状 态 ,数据 流 是 持续 的 。 

(2) 物 联网 中 的 数据 传输 速率 更 高 。 由 于 物 联 网 与 真实 物理 世界 直接 关联 ,很 多 情况 
下 需要 实时 访问 、 控 制 相应 的 结 点 和 设备 .因此 需要 高 数据 传输 速率 来 支持 。 
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(3) 物 联网 中 的 数据 更 加 多 样 化 。 物 联网 涉及 的 应 用 范围 广泛 ,包括 智慧 城市 .智慧 交 
通 , 智 慧 物 流 、 商 品 溯源 、 智 能 家 居 、 智 慧 医疗 ,安防 监控 等 ; 在 不 同 领域 ,不 同行 业 , 需 要 面 
对 不 同类 型 .不 同 格式 的 应 用 数据 ,因此 物 联 网 中 数据 多 样 性 更 为 突出 。 

(4) 物 联 网 对 数据 真实 性 的 要 求 更 高 。 物 联网 是 真实 物理 世界 与 虚拟 信息 世界 的 结 
合 ,其 对 数据 的 处 理 以 及 基于 此 进行 的 决策 将 直接 影响 物理 世界 , 物 联 网 中 数据 的 真实 性 显 
得 尤为 重要 。 

以 智能 安防 应 用 为 例 , 智 能 安防 行业 已 从 大 面积 监控 布点 转变 为 注重 视频 智能 预警 、 分 
析 和 实战 ,利用 大 数据 技术 从 海量 的 视频 数据 中 进行 规律 预测 、 情 境 分 析 、 串 并 侦察 ,时 空 分 
析 等 。 在 智能 安防 领域 ,数据 的 产生 ,存储 和 处 理 是 智能 安防 解决 方案 的 基础 ,只 有 采集 足 
够 有 价值 的 安防 信息 ,通过 大 数据 分 析 以 及 综合 研判 模型 ,才能 制定 智能 安防 决策 。 

所 以 ,在 信息 社会 中 ,几乎 所 有 行业 的 发 展 都 离 不 开 大 数据 的 支持 。 


2.1.3 大 数据 采集 的 技术 方法 


数据 采集 技术 是 信息 科学 的 重要 组 成 部 分 ,已 广泛 应 用 于 国民 经 济 和 国防 建设 的 各 个 
领域 ,并 且 随 着 科学 技术 的 发 展 ,尤其 是 计算 机 技术 的 发 展 与 普及 ,数据 采集 技术 具有 更 广 
阔 的 发 展 前 景 。 大 数据 的 采集 技术 为 大 数据 处 理 的 关键 技术 之 一 。 


1. 系统 日 志 采 集 方法 


很 多 互联 网 企业 都 有 自己 的 海量 数据 采集 工具 ,多 用 于 系统 日 志 采 集 ,如 Hadoop 的 
Chukwa、Cloudera 的 Flume, Facebook 的 Scribe 等 ,如 表 2-2 所 示 。 这 些 系统 采用 分 布 式 
架构 ,能 满足 每 秒 数 百 MB 的 日 志 数据 采集 和 传输 需求 。 例 如 ,Scribe 是 Facebook 开源 的 
日 志 收 集 系统 ,能 够 从 各 种 日 志 源 上 收集 日 志 , 存 储 到 一 个 中 央 存 储 系统 (可 以 是 NFS 、 分 
布 式 文件 系统 等 ) 上 ,以 便于 进行 集中 统计 分 析 处 理 。 它 为 日 志 的 "分布 式 收集 ,统一 处 理 ” 
提供 了 一 个 可 扩展 的 、 高 容错 的 方案 。 

表 2-2 主要 日 志 采 集 系 统 对 比 
































日 志 采 集 系 统 Scribe Chukwa Flume 
公司 Facebook Apache/ Yahoo Cloudera 
开源 时 间 2008. 10 2009. 11 2009.7 
实现 语言 C/C++ Java Java 
TITTET 
收集 器 和 存储 之 间 有 容错 机 a RE p | IOUR Z e 
容错 性 制 , 而 代理 和 收集 器 之 间 的 容 障 的 情况 下 TERESE 错 机 制 ,并 提供 了 三 种 基 
错 需要 自己 实现 继续 发 送 数据 本 的 可 靠 性 保证 
负载 均衡 无 无 使 用 Zookeeper 
可 扩展 性 好 好 好 
一 些 = 党 丰 
代理 (Agent) | Thirft Client 需要 自己 实现 “n oaa adbaB pe 各 种 非常 丰富 的 
对 多 个 数据 源 发 过 来 的 数据 
收集 器 实际 上 是 一 个 Thirft Server | 进行 合并 ,然后 加 载 到 HDFS ae 
中 ; 隐藏 HDFS 实现 的 细节 
存储 直接 支持 HDFS 直接 支持 HDFS 直接 支持 HDFS 
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续 表 
日 志 采 集 系 统 Scribe Chukwa Flume 
ikw ent 属于 Hadoop 系列 产品 ,直接 | 内置 组 件 齐全 ,不 必 进 行 
EEA 支持 Hadoop, 有 待 完善 额外 开发 即 可 使 用 








2. 对 非 结构 化 数据 的 采集 


非 结 构 化 数据 的 采集 就 是 针对 所 有 非 结 构 化 的 数据 的 采集 ,包括 企业 内 部 数据 的 采集 
和 网 络 数 据 采 集 等 。 企 业内 部 数据 的 采集 是 对 企业 内 部 各 种 文档 、 视 频 、 音 频 、 邮 件 、 图 片 等 数 
据 格式 之 间 互 不 兼容 的 数据 采集 ,具体 采集 方案 可 详 见 第 11 章 大 数据 解决 方案 及 相关 案例 。 

网 络 数据 采集 是 指 通过 网 络 朴 虫 或 网 站 公开 API 等 方式 从 网 站 上 获取 互联 网 中 相关 
网 页 内 容 的 过 程 ,并 从 中 抽取 出 用 户 所 需要 的 属性 内 容 。 互 联网 网 页 数据 处 理 就 是 对 抽取 
出 来 的 网 页 数据 进行 内 容 和 格式 上 的 处 理 、 转 换 和 加 工 , 使 之 能 够 适应 用 户 的 需求 ,并 将 之 
存储 下 来 , 供 以 后 使 用 。 该 方法 可 以 将 非 结构 化 数据 从 网 页 中 抽取 出 来 ,将 其 存储 为 统一 的 
本 地 数据 文件 ,并 以 结构 化 的 方式 存储 。 它 支持 图 片 .音频 视频 等 文件 或 附件 的 采集 ,附件 
与 正文 可 以 自动 关联 。 除 了 网 络 中 包含 的 内 容 之 外 ,对 于 网 络 流量 的 采集 可 以 使 用 DPI 或 
DFI 等 带宽 管理 技术 进行 处 理 。 

网 络 爬 虫 是 一 种 按照 一 定 的 规则 ,自动 地 抓 取 万 维 网 信息 的 程序 或 者 脚本 ,是 一 个 自动 
提取 网 页 的 程序 , 它 为 搜索 引擎 从 万 维 网 上 下 载 网 页 ,是 搜索 引擎 的 重要 组 成 。 

网 络 数据 采集 和 处 理 的 整体 过 程 如 图 2-1 所 示 , 包 含 四 个 主要 模块 : REIR (Spider), 
数据 处 理 (Data Process), URL 队列 (URL Queue) 和 数据 (Data) 。 


(2) 

















数据 处 理 队列 
(5) £ (6) 





























图 2-1 网 络 数据 采集 和 处 理 流 程 


这 四 个 主要 模块 的 功能 如 下 。 

(1) WEKE: 从 Internet 上 抓 取 网 页 内 容 . 并 抽取 出 需要 的 属性 内 容 。 

(2) 数据 处 理 : 对 疏 虫 抓 取 的 内 容 进行 处 理 。 

G) URL 队列 (CURL Queue); 为 疏 虫 提供 需要 抓 取 数 据 网 站 的 URL, 

(4) 数据 : 包含 Site URL Spider Data 和 Dp Data。 其 中 ,Site URL 是 需要 抓 取 数据 网 
站 的 URL 信息 ; Spider Data 是 疏 虫 从 网 页 中 抽取 出 来 的 数据 ; Dp Data 是 经 过 数据 处 理 
之 后 的 数据 。 





A 3⁄4 技术 概论 


整个 网 络 数据 采集 和 处 理 的 基本 步骤 如 下 : 

(1) 将 需要 抓 取 数据 的 网 站 的 URL 信息 (Site URL) 写 入 URL 队列 。 

(2) SERM URL 队列 中 获取 需要 抓 取 数据 的 网 站 的 Site URL 信息 . 

(3) SEEM Internet 抓 取 与 Site URL 对 应 的 网 页 内 容 , 并 抽取 出 网 页 特定 属性 的 内 








容 值 。 
(4) 疏 虫 将 从 网 页 中 抽取 出 的 数据 (Spider Data) 写 入 数据 库 。 

(5) Dp 读 取 Spider Data 并 进行 处 理 。 

(6) Dp 将 处 理 之 后 的 数据 写 入 数据 库 。 

目前 网 络 数据 采集 的 关键 技术 为 链接 过 滤 , 其 实质 是 判断 一 个 链接 (当前 链接 ) 是 不 是 
在 一 个 链接 集合 (已 经 抓 取 过 的 链接 ) 里 。 在 对 网 页 大 数据 的 采集 中 ,可 以 采用 布 降 过 滤器 
(Bloom Filter) 来 实现 对 链接 的 过 滤 。 


3. 其 他 数据 采集 方法 


对 于 企业 生产 经 营 数据 或 学 科研 究 数 据 等 保密 性 要 求 较 高 的 数据 ,可 以 通过 与 企业 或 
研究 机 构 合 作 , 使 用 特定 系统 接口 等 相关 方式 采集 数据 。 

尽管 大 数据 技术 层面 的 应 用 可 以 无 限 广 阔 , 但 由 于 受到 数据 采集 的 限制 ,能 够 用 于 商业 
应 用 、 服 务 于 人 们 的 数据 要 远 远 小 于 理论 上 大 数据 能 够 采集 和 处 理 的 数据 。 因 此 ,解决 大 数 
据 的 隐私 问题 是 数据 采 术 的 重要 目标 之 一 。 现 阶段 的 医疗 机 构 数据 更 多 来 源 于 内 部 ， 
外 部 的 数据 没有 得 到 很 好 的 应 用 。 对 于 外 部 数据 ,医疗 机 构 可 以 考虑 借助 如 百度 .阿里 、 腾 
讯 等 第 三 方 数 据 平 台 解决 数 难题。 例如 ,百度 推出 的 疾病 预测 大 数据 产品 (如 图 2-2 
所 示 ) 可 以 对 全 国 不 同 的 区 域 进行 全 面 监控 ,智能 化 地 列 出 某 一 地 级 市 和 区 域 的 流感 .肝炎 、 
肺结核 .性病 
率 。 在 


规模 暴发 疾病 时 能 够 提前 做 好 预防 措施 和 医疗 


















等 常见 疾病 的 活跃 度 ,趋势 图 等 ,进而 有 针对 性 地 进行 预防 ,从 而 降低 染病 的 几 
,通过 大 数据 的 应 用 可 以 更 加 快速 清楚 地 预测 到 疾病 发 展 的 趋势 ,这 样 在 大 
资源 的 储蓄 和 分 配 , 优 化 医疗 资源 。 








2.2 大 数据 的 预 处 理 


要 对 海量 数据 进行 有 效 的 分 析 , 应 该 将 这 些 来 自前 端的 数据 导入 到 一 个 集中 的 大 型 分 
布 式 数 据 库 或 者 分 布 式 存储 集群 ,并 且 可 以 在 导入 基础 上 做 一 些 简 单 的 清洗 和 预 处 理工 作 。 
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导 人 与 预 处 理 过 程 的 特点 和 挑战 主要 是 导入 的 数据 量 大 ,通常 用 户 每 秒 钟 的 导入 量 会 达到 
百 兆 , 甚 至 千 兆 级 别 。 

根据 大 数据 的 多 样 性 ,决定 了 通过 多 种 渠道 获取 的 数据 种 类 和 数据 结构 都 非常 复杂 ,这 
就 给 之 后 的 数据 分 析 和 处 理 带 来 了 极 大 的 困难 。 通 过 大 数据 的 预 处 理 这 一 步骤 ,将 这 些 结 
构 复 杂 的 数据 转换 为 单一 的 或 便于 处 理 的 结构 ,为 以 后 的 数据 分 析 打 下 良好 的 基础 。 由 于 
所 采集 的 数据 里 并 不 是 所 有 的 信息 都 是 必需 的 ,而 是 摊 杂 了 很 多 噪声 和 干扰 项 ,因此 还 需要 
对 这 些 数据 进行 “去 噪 " 和 “清洗 ”, 以 保证 数据 的 质量 和 可 靠 性 。 常 用 的 方法 是 在 数据 处 理 
的 过 程 中 设计 一 些 数据 过 滤器 ,通过 聚 类 或 关联 分 析 的 规则 方法 将 无 用 或 错误 的 离 群 数据 
挑 出 来 过 滤 掉 ,防止 其 对 最 终 数据 结果 产生 不 利 影响 ,然后 将 这 些 整 理 好 的 数据 进行 集成 和 
存储 。 现 在 一 般 的 解决 方法 是 将 针对 特定 种 类 的 数据 信息 分 门 别 类 放置 ,可 以 有 效 地 减少 
数据 查询 和 访问 的 时 间 , 提 高 数据 提取 速度 。 大 数据 处 理 流程 如 图 2-3 所 示 。 
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图 2-3 大 数据 处 理 流程 
大 数据 预 处 理 的 方法 主要 包括 数据 清洗 ,数据 集成 数据 变换 和 数据 归 约 。 
1. 数据 清洗 


数据 清洗 是 在 汇聚 多 个 维度 、 多 个 来 源 、 多 种 结构 的 数据 之 后 ,对 数据 进行 抽取 转换 和 
集成 加 载 。 在 这 个 过 程 中 ,除了 更 正 、 修 复 系统 中 的 一 些 错误 数据 之 外 ,更 多 的 是 对 数据 进 
行 归并 整理 ,并 存储 到 新 的 存储 介质 中 。 

常见 的 数据 质量 问题 可 以 根据 数据 源 的 多 少 和 所 属 层次 分 为 以 下 4 类。 

(1) 单数 据 源 定义 层 ; 违背 字段 约束 条 件 ( 日 期 出 现 1 月 0 日 ) .字段 属性 依赖 冲突 (两 
条 记录 描述 同一 个 人 的 某 一 个 属性 ,但 数值 不 一 致 )、 违 反 唯 一 性 (同一 个 主键 ID 出 现 了 
多 次 ) 。 

(2) 单数 据 源 实例 层 ; 单个 属性 值 含 有 过 多 信息 、 拼 写 错误 .空白 值 . 噪 音 数 据 、 数 据 重 
复 、 过 时 数据 等 。 

(3) 多 数据 源 的 定义 层 : 同一 个 实体 的 不 同 称呼 (笔名 和 真名 )、 同 一 种 属性 的 不 同 定 
义 ( 字 段 长 度 定义 不 一 臻 .字段 类 型 不 一 致 等 ) 。 

(4) 多 数据 源 的 实例 层 : 数据 的 维度 、 粒 度 不 一 致 (有 的 按 GB 记录 存储 量 , 有 的 按 TB 
记录 存储 量 ; 有 的 按照 年 度 统计 ,有 的 按照 月 份 统计 )、 数 据 重复 .拼写 错误 。 

此 外 ,还 有 在 数据 处 理 过 程 中 产生 的 “二 次 数据 ,包括 数据 噪声 .数据 重复 或 错误 的 情 
况 。 数 据 的 调整 和 清洗 涉及 到 格式 、 测 量 单位 和 数据 标准 化 与 归 一 化 。 数 据 不 确定 性 有 两 
方面 含义 , 即 数据 自身 的 不 确定 性 和 数据 属性 值 的 不 确定 性 。 前 者 可 用 概率 描述 ,后 者 有 多 
重 描述 方式 ,如 描述 属性 值 的 概率 密度 函数 、 以 方差 为 代表 的 统计 值 等 。 

对 于 数据 质量 中 普遍 存在 的 空缺 值 .噪音 值 和 不 一 致 数据 的 情况 ,可 以 采用 传统 的 统计 
学 方法 、 基 于 聚 类 的 方法 、 基 于 距离 的 方法 、 基 于 分 类 的 方法 和 基于 关联 规则 的 方法 等 来 实 
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现 数据 清洗 。 数 据 清洗 方法 的 对 比如 表 2-3 所 示 。 
表 2-3 传统 的 数据 清洗 和 大 数据 清洗 方法 的 对 比 

















选项 | ”传统 的 数据 清洗 大 数据 清洗 
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主要 | 通过 生生 ea PENR a a a n g a PTE B BE SEER EA 
Ti KEERA eg 党 数据 的 分 类 | 规则 的 数据 被 认 
的 孤立 点 模型 为 是 异常 数据 
对 多 种 类 再 的 数 
结合 p y 心 
优点 | 可 以 随机 选取 据 有 效 , 具有 普 | 比较 简单 易 算 ”| 千 合 了 数据 的 偏 | 可 以 发 现 数据 什 
好 性 的 关联 性 
适 性 
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T | 多 次 迭代 法 ,对 于 大 型 数据 区， 全 U ana 正确 的 规则 
集 开销 较 大 

















在 大 数据 清洗 中 ,根据 缺陷 数据 类 型 可 分 为 异常 记录 检测 、 空 值 的 处 理 、 错 误 值 的 处 理 、 
不 一 致 数据 的 处 理 和 重复 数据 的 检测 。 其 中 异常 记录 检测 和 重复 数据 的 检测 为 数据 清洗 的 
两 个 核心 问题 。 
(1) 异常 记录 检测 : 包括 解决 空 值 .错误 值 和 不 一 致 数据 的 方法 。 
(2) 空 值 的 处 理 : 一 般 采 用 估算 方法 ,例如 采用 均值 . 众 数 ,最 大 值 .最 小 值 .中 位 数 填 


充 。 


但 估 值 方法 会 引入 误差 ,如 果 空 值 较 多 ,会 使 结果 偏离 较 大 。 


(3) 错误 值 的 处 理 : 通常 采用 统计 方法 来 处 理 , 例 如 偏差 分 析 、 回 归 方 程 、 正 态 分 布 等 。 
(4) 不 一 致 数据 的 处 理 : 主要 体现 为 数据 不 满足 完整 性 约束 ,可 以 通过 分 析 数据 字典 、 
元 数据 等 ,整理 数据 之 间 的 关系 进行 修正 。 不 一 致 数据 通常 是 由 于 缺乏 数据 标准 而 产生 的 。 
(5) 重复 数据 的 检测 : 其 算法 可 以 分 为 基本 的 字段 匹配 算法 、 递 归 的 字段 匹配 算法 、 




















Smith-Waterman 算法 、 基 于 编辑 距离 的 字段 匹配 算法 和 改进 余弦 相似 度 函 数 。 这 些 算法 
的 对 比如 表 2-4 所 示 。 
表 2-4 重复 数据 的 检测 算法 对 比 
算法 | FENER 递归 的 字段 | Smith-Waterman | 基于 编辑 距离 的 | 改进 余弦 
匹配 算法 匹配 算法 算法 字段 匹配 算法 “| 相似 度 函数 
要 义 解 决 经 党 
m r e A m SPEDE e M a A m 
点 | 直接 按 位 写 的 匹 >i i j 单 i 
优点 | 直接 按 位 比较 MARAS OE gg maem EAMAN gaea 
字符 串 缩写 的 情况 |” 串 匹配 间 题 
hj 杂 ,与 ni DA id 
不 能 处 理子 字段 | 时 间 复 杂 度 高 ,与 具 | 不 能 处 理子 串 顺 序 | 对 单词 的 位 置 交 换 ,| 不 能 识别 排 写 
Bal rang 体 领域 关系 密切 , 效 | 二 个 的 情形 长 单词 的 插入 和 出 | 全 
率 较 低 除 错误 ,匹配 效果 差 








大 数据 的 清洗 工具 主要 有 DataWrangler 和 Google Refine 等 。DataWrangle 是 一 款 由 
斯 坦 福 大 学 开发 的 在 线 数据 清洗 数据 重组 软件 ,主要 用 于 去 除 无 效 数据 ,将 数据 整理 成 用 
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户 需 要 的 格式 等 。Google Refine 设 有 内 置 算 法 ,可 以 发 现 一 些 拼写 不 一 样 但 实际 上 应 分 为 
一 组 的 文本 。 除 了 数据 管家 功能 .Google Refine 还 提供 了 一 些 有 用 的 分 析 工 具 , 例 如 排序 
和 筛选 。 

2. 数据 集成 

在 大 数据 领域 中 ,数据 集成 技术 也 是 实现 大 数据 方案 的 关键 组 件 。 大 数据 集成 是 将 大 
量 不 同类 型 的 数据 原封 不 动 地 保存 在 原 地 ,而 将 处 理 过 程 适当 地 分 配给 这 些 数据 。 这 是 一 
个 并 行 处 理 的 过 程 , 当 在 这 些 分 布 式 数据 上 执行 请 求 后 ,需要 整合 并 返回 结果 。 大 数据 集成 
是 基于 数据 集成 技术 演化 而 来 的 ,但 其 方案 和 传统 的 数据 集成 有 着 巨大 的 差别 。 大 数据 集 
成 架构 如 图 2-4 所 示 , 图 中 的 箭头 表示 各 种 各 样 数据 结构 之 间 进 行 数据 传输 和 整合 的 数据 


集成 方案 。 
结构 化 商务 数据 可 视 商务 智能 | | 基于 Map Reduce 的 
智能 工具 化 工具 搜索 工具 商务 智能 工具 
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图 2-4 大 数据 集成 架构 


大 数据 集成 ,狭义 上 讲 是 指 如 何 合 并 规整 数据 ; 广义 上 讲 , 数 据 的 存储 ,移动 、 处 理 等 与 
数据 管理 有 关 的 活动 都 称 为 数据 集成 。 大 数据 集成 一 般 需 要 将 处 理 过 程 分 布 到 源 数据 上 进 
行 并 行 处 理 , 并 仅 对 结果 进行 集成 。 因 为 ,如 果 预 先 对 数据 进行 合并 会 消耗 大 量 的 处 理 时 间 
和 存储 空间 。 集 成 结构 化 、 半 结构 化 和 非 结 构 化 的 数据 时 需要 在 数据 之 间 建 立 共同 的 信息 
联系 ,这 些 信息 可 以 表示 为 数据 库 中 的 主 数据 、 键 值 , 非 结构 化 数据 中 的 元 数据 标签 或 者 其 
ERRAR. 

数据 集成 时 应 解决 的 问题 包括 数据 转换 .数据 的 迁移 、 组 织 内 部 的 数据 移动 ,从 非 结构 
化 数据 中 抽取 信息 以 及 将 数据 处 理 移动 到 数据 端 。 





ORE. BAME 


(1) 数据 转换 ,是 数据 集成 中 最 复杂 和 最 困难 的 问题 ,所 要 解决 的 是 如 何 将 数据 转换 为 
统一 的 格式 。 需 要 注意 的 是 要 理解 整合 前 的 数据 和 整合 后 的 数据 结构 。 将 数据 转换 为 通用 
格式 的 过 程 如 图 2-5 所 示 。 





转换 过 程 








非 结构 化 数据 源 


图 2-5 将 数据 转换 为 通用 格式 的 过 程 


(2) 数据 的 迁移 ,即将 一 个 应 用 的 数据 迁移 到 另 一 个 新 的 应 用 中 。 在 组 织 内 部 , 当 一 个 
应 用 被 新 的 应 用 所 替换 时 ,就 需要 将 旧 应 用 中 的 数据 迁移 到 新 的 应 用 中 ,如 图 2-6 所 示 。 





图 2-6 数据 的 迁移 


(3) 组 织 内 部 的 数据 移动 , 即 多 个 应 用 系统 需要 在 多 个 来 自 其 他 应 用 系统 的 数据 发 生 
更 新 时 被 实时 通知 ,如 图 2-7 所 示 。 

(4) 从 非 结构 化 数据 中 提取 信息 。 当 前 数据 集成 的 主要 任务 是 将 结构 化 的 、 半 结构 化 
或 非 结构 化 的 数据 进行 集成 。 存 储 在 数据 库 外 部 的 数据 ,如 文档 、 电 子 邮 件 、 网 站 、 社 会 化 媒 
体 、 音 频 及 视频 文件 ,可 以 通过 客户 、 产 品 、 雇 员 或 者 其 他 主 数据 引用 进行 搜索 。 主 数据 引用 
作为 元 数据 标签 附加 到 非 结构 化 数据 上 ,在 此 基础 上 就 可 以 实现 与 其 他 数据 源 和 其 他 类 型 
数据 的 集成 ,如 图 2-8 所 示 。 

(5) 将 数据 处 理 移动 到 数据 端 。 将 数据 处 理 过 程 分 布 到 数据 所 处 的 多 个 不 同 的 位 置 ， 
这 样 可 以 避免 元 余 , 如 图 2-9 所 示 。 
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图 2-8 从 非 结构 化 数据 中 提取 信息 





图 2-9 将 数据 处 理 移动 到 数据 端 
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目前 ,数据 集成 已 被 推 至 信息 化 战略 规划 的 首要 位 置 。 要 实现 数据 集成 的 应 用 ,不 光 要 
考虑 集成 的 数据 范围 ,还 要 从 长 远 发 展 角度 考虑 数据 集成 的 架构 ,能力 和 技术 等 方面 内 容 。 


3. 数据 变换 


数据 变换 是 将 数据 转换 成 适合 挖掘 的 形式 。 数 据 变换 是 采用 线性 或 非 线 性 的 数学 变换 
方法 将 多 维 数据 压缩 成 较 少 维 数 的 数据 ,消除 它们 在 时 间 、 空 间 、 属 性 及 精度 等 特征 表现 方 
面 的 差异 ,如 表 2-5 所 示 。 
表 2-5 数据 变换 方法 分 类 


























数据 变换 方法 分 类 作 M 

数据 平滑 去 噪 ,将 连续 数据 离散 化 

数据 聚集 对 数据 进行 汇总 

数据 概 化 用 高 层 概念 替换 ,减少 复杂 度 

数据 规范 化 使 数据 按 比 例 缩放 , 落 入 特定 区 域 

属性 构造 提高 数据 的 准确 性 ,加 深 对 高 维 数据 结构 的 理解 
数据 变换 涉及 的 内 容 如 下 。 
(1) 数据 平滑 : 清除 噪声 数据 。 去 除 源 数据 集中 的 噪声 数据 和 无 关 数据 ,处 理 遗 漏 数 

据 和 清洗 脏 数据 。 


(2) 数据 聚集 : 对 数据 进行 汇总 和 聚集 。 例 如 ,可 以 聚集 日 门诊 量 数据 ,计算 月 和 年 门 
数 


š 


(3) 数据 概 化 : 使 用 概念 分 层 , 用 高 层次 概念 蔡 换 低层 次 “原始 "数据 。 

(4) 数据 规范 化 : 将 属性 数据 按 比 例 缩 放 , 使 之 落 入 一 个 小 的 特定 区 间 , 如 [0.0 一 1. 0]。 
规范 化 对 于 某 些 分 类 算法 特别 有 用 。 

(5) 属性 构造 : 基于 其 他 属性 创建 一 些 新 属性 。 


4. 数据 归 约 


数据 归 约 是 从 数据 库 或 数据 仓库 中 选取 并 建立 使 用 者 感 兴趣 的 数据 集合 ,然后 从 数据 
集合 中 过 滤 掉 一 些 无 关 、 偏 差 或 重复 的 数据 。 数 据 归 约 的 主要 方法 如 表 2-6 所 示 。 
表 2-6 数据 归 约 方法 分 类 














数据 归 约 方法 分 类 # R 
维 归 约 数据 选择 方法 等 
数据 压缩 小 波 变换 、 主 成 分 分 析 、 分 形 技术 
数值 归 约 MH EKRA RKE 
离散 化 和 概念 分 层 分 箱 技术 .基于 焙 的 离散 化 等 








(1) 维 归 约 : 通过 删除 不 相关 的 属性 (或 维 ) 减 少数 据 量 。 维 归 约 不 仅 会 压缩 数据 集 ， 
还 会 减少 出 现在 发 现 模式 上 的 属性 数目 。 

(2) 数据 压缩 : 应 用 数据 编码 或 变换 ,得 到 源 数据 的 归 约 或 压缩 表示 。 数 据 压缩 分 为 
无 损 压 缩 和 有 损 压 缩 。 

(3) 数值 归 约 : 数值 归 约 通过 选择 替代 的 、 较 小 的 数据 表示 形式 来 减少 数据 量 。 








第 2 章 大 数据 采集 及 预 处 理 








< G 


(4) 离散 化 和 概念 分 层 : 概念 分 层 通 过 收集 并 用 较 高 层 的 概念 蔡 换 较 低层 的 概念 来 定 
义 数值 属性 的 一 个 离散 化 。 


2.3 大 数据 采集 及 预 处 理 的 工具 


本 节 主 要 介绍 大 数据 采集 及 预 处 理 时 的 一 些 常用 工具 , 随 着 国内 大 数据 战略 越 来 越 清 
晰 ,数据 抓 取 和 信息 采集 产品 迎 来 了 巨大 的 发 展 机 遇 ,采集 产品 数量 也 出 现 迅猛 增长 。 然 而 
与 产品 种 类 快速 增长 相反 的 是 ,信息 采集 技术 相对 薄弱 、 市 场 竞争 激烈 ,质量 良 蓉 不 齐 。 在 
此 ,本 节 列 出 了 当前 信息 采集 和 数据 抓 取 的 一 些 主流 产品 。 


1. Flume 


Flume 是 Cloudera 提供 的 一 个 高 可 用 的 、 高 可 靠 的 .分 布 式 的 海量 日 志 采 集 、. 聚 合 和 传 
输 系 统 。Flume 支持 在 日 志 系 统 中 定制 各 类 数据 发 送 方 ,用 于 收集 数据 ; 同时 ,Flume 能 够 
对 数据 进行 简单 处 理 ,具有 写 到 各 种 数据 接收 方 (可 定制 ) 的 能 力 。 

Flume 提供 了 从 Console( 控 制 台 )、RPC(Thrift-RPC)、Text( 文 件 )、Tail(UNIX Tail), 
Syslog(Syslog 日 志 系 统 , 支 持 TCP 和 UDP 两 种 模式 )`Exec( 命 令 执行 ) 等 数据 源 上 收集 数 
据 的 能 力 。 

官网 地 址 为 http://flume. apache. org/ ,如 图 2-10 所 示 。 


Apache Flume `w 


Welcome to Apache Flume 


Flume w a distributed, reliable. and avaslabie service for efficreniiy collecting. aggregating. and mova large amott of log data It has s umple and fletsble architecture based on 
tre data flow. 1 w roba and faut tolerant sah tanabie reinsbnhiry mechamiama and many famkes er and reemer mpechanaona Ñ wees 4 umple enable data rodel that 
bows for online analyn spphcanon 





图 2-10 Flume 官方 网 站 


2. Logstash 


Logstash 是 一 个 应 用 程序 日 志 、 事 件 的 传输 处理、 管理 和 搜索 的 平台 ,可 以 用 它 来 统 
一 对 应 用 程序 日 志 进 行 收集 管理 ,提供 Web 接口 用 于 查询 和 统计 。 它 可 以 对 日 志 进 行 收 
集 、 分 析 , 并 将 其 存储 供 以 后 使 用 (如 搜索 ) ,Logstash 带 有 一 个 Web 界面 ,可 以 用 来 搜索 和 
展示 所 有 日 志 。 

官网 地 址 为 http://www. logstash. net/ ,如 图 2-11 所 示 。 


3. Kibana 











Kibana 是 一 个 为 Logstash 和 ElasticSearch 提供 的 日 志 分 析 的 Web 接口 ,可 使 用 它 对 
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日 志 进 行 高 效 的 搜索 .可 视 化 分析 等 各 种 操作 。Kibana 也 是 一 个 开源 和 免费 的 工具 , 它 可 
以 汇总 、 分 析 和 搜索 重要 数据 日 志 并 提供 友好 的 Web 界面 , 它 可 以 为 Logstash 和 
ElasticSearch 提供 日 志 分 析 的 Web 界面 。 


gg? elastic produis coud subscriptions Leam Community Usecases Blog About Q 


Logstash | Collect, Enrich & Transport Data 
图 2-11 Logstash 官方 网 站 
Kibana 主页 地 址 为 http: //kibana. org/ ,如 图 2-12 所 示 。 
w “s mn mm GB 


4? elastic Products Cloud Subscriptions Leam Community UseCases Blog About Q 


Kibana | Explore & Visualize Your Data 
图 2-12 Kibana 官方 网 站 


4. Ceilometer 


Ceilometer 主要 负责 监控 数据 的 采集 ,是 OpenStack 中 的 一 个 子 项 目 , 它 像 一 个 漏斗 一 
样 ,能 把 OpenStack 内 部 发 生 的 几乎 所 有 的 事件 都 收集 起 来 ,然后 为 计 费 和 监控 以 及 其 他 
服务 提供 数据 支撑 。 

官方 网 站 地 址 为 http://docs. openstack. org/ ,如 图 2-13 所 示 。 


Welcome to OpenStack Documentation Eo 


What is OpenStack? OpenStack is a doud operating system that controis large pools of compute. storage. and i 
networking resources throughout a datacenter. all managed through a dashboard that ges administrators 
control while empowering their users to provision resources through a web interface. 


What Are The Next Steps? 


Tim Bell 


Documentation for Liberty (October 2015) 
This s the latest release. Use the menu to select a prior relesse if needec 


图 2-13 OpenStack 官方 网 站 
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5. Zipkin 


Zipkin( 分 布 式 跟踪 系统 ) 是 Twitter 的 一 个 开源 项 目 ,允许 开发 者 收集 Twitter 各 个 服 
务 上 的 监控 数据 ,并 提供 查询 接口 。 该 系统 让 开发 者 可 通过 一 个 Web 前 端 轻 松 地 收集 和 分 
析 数 据 , 例 如 用 户 每 次 请 求 服务 的 处 理 时间 等 ,可 方便 地 监测 系统 中 存在 的 瓶颈 。 
官方 网 站 地 址 为 http://twitter. github. io/zipkin/ ,如 图 2-14 所 示 。 


Zipkin 

A distributed tracing system 

Useful Links ZIPKIN 

Zipkin @ GitHub Zipkin is a distributed tracing system that helps us gather timing data for all the 
Issue Tracker disparate services at Twitter. It manages both the collection and lookup of this data 
Qek sontcli through a Collector and a Query service. We closely modelled Zipkin after the Google 


Dapper paper. Follow @ZipkinProject for updates. 
a Collecting traces helps developers gain deeper knowledge about how certain requests 
Search the contents ofthis site. perform in a distributed system. Let's say we're having problems with user requests 
timing out. We can look up traced requests that timed out and display it in the web UI. 
Well be able to quickly find the service responsible for adding the unexpected response 
time. If the service has been annotated adequately we can also find out where in that 
service the issue is happening. 


User’s guide 
Quickstart 
Instrumenting a library 
Span Recievers 
Architecture 


© Copyright 2014 Twitter, Ine. 


图 2-14 Zipkin 官方 网 站 


6. Arachnid 


Arachnid 是 一 个 基于 Java 的 网 络 怜 虫 框架 , 它 包 含 一 个 简单 的 HTML 剖析 器 ,能 够 分 析 
包含 HTML 内 容 的 输入 流 。 通 过 实现 Arachnid 的 子 类 就 能 够 开发 一 个 简单 的 网 络 疏 虫 。 

特点 : 微型 仆 虫 框架 ,含有 一 个 小 型 HTML 解析 器 。 

项 目 主页 : http://arachnid. sourceforge. net/ 。 


7. Crawlzilla 


Crawlzilla 是 一 个 建立 搜索 引擎 的 自由 软件 ,由 Nutch 专案 为 核心 ,并 整合 更 多 相关 套 
件 。Crawlzilla KR TERIER HTML 外 ,还 能 分 析 网 页 上 的 文件 ,如 doc, pdf .ppt.ooo 
rss 等 多 种 文件 格式 ,使 得 搜索 引擎 不 只 是 网 页 搜索 引擎 ,而 是 网 站 的 完整 资料 索引 库 。 它 
拥有 中 文 分 词 能 力 , 搜 索 更 精准 。Crawlzilla 最 主要 的 特色 与 目标 就 是 给 使 用 者 提供 一 个 
方便 好 用 易 安 装 的 搜索 平台 。 

特点 : 安装 简易 ,拥有 中 文 分 词 功能 。 

项 目 主页 : https//github. com/shunfa/crawlzilla。 

下 载 地 址 : http//sourceforge. net/ projects/crawlzilla/ 。 
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8. 集 搜 客 GooSeeker 


GooSeeker 是 国内 一 款 大 数据 抓 取 软 件 ,GooSeeker 致力 于 提供 一 套 便捷 易 用 的 软件 ， 
将 网 页 内 容 进 行 语义 标注 和 结构 化 转换 。 一 旦 有 了 语义 结构 ,整个 Web 就 变 成 了 一 个 大 数 
据 库 ; 一 旦 内 容 被 赋予 了 意义 (语义 ) ,就 能 从 中 挖掘 出 有 价值 的 知识 。 集 搜 客 创造 了 以 下 
商业 应 用 场景 : 

(1) 集 搜 客 网 络 怜 虫 不 是 一 个 简单 的 网 页 抓 取 器 , 它 能 够 集 众 人 之 力 把 语义 标签 摘 取 下 来 ; 

(2) 每 个 语义 标签 代表 大 数据 知识 对 象 的 一 个 维度 ,可 以 进行 多 维度 整合 ,剖析 此 知识 
对 象 ; 

(3) 知识 对 象 可 以 是 多 个 层面 的 ,如 市 场 竞争 、 消 费 者 洞察 品牌 地 图 企业 画像 。 

官方 网 站 地 址 为 http://www. gooseeker. com/index. html, 如 图 2-15 所 示 。 





GooSeeker ses 首页 产品 资源 教程 社区 ee m EDA 





集 搜 客 GooSeeker 网 页 抓 取 软 件 
玩 转 大 数据 ， 发 现 数据 之 美 
8 年 打造 品牌 产品 
T | 免费 下 载 
加 @ Ce 
免 编 程 抓 取 数 据 模板 资源 套用 通用 网 络 息 忠 不 限 深度 和 广度 


图 2-15 GooSeeker 官方 网 站 


9. 乐 思 网 络 信息 采集 系统 


乐 思 网 络 信息 采集 系统 的 主要 目标 就 是 解决 网 络 信息 采集 和 网 络 数据 抓 取 问题 ,是 根 
据 用 户 自 定义 的 任务 配置 ,批量 而 精确 地 抽取 因特网 目标 网 页 中 的 半 结 构 化 与 非 结 构 化 数 
据 ,转化 为 结构 化 的 记录 ,保存 在 本 地 数据 库 中 ,用 于 内 部 使 用 或 外 网 发 布 ,快速 实现 外 部 信 
息 的 获取 。 

该 系统 主要 用 于 大 数据 基础 建设 .与 情 监测 .品牌 监测 、 价 格 监测 .门户 网 站 新 闻 采 集 、 
行业 资讯 采集 、 竞 争 情报 获取 、 商 业 数 据 整 合 .市 场 研究 .数据 库 营 销 等 领域 。 

官方 网 站 地 址 为 http://www. knowlesys. cn/index. html, 如 图 2-16 所 示 。 


10. 火车 采集 器 


火车 采集 器 是 一 款 专业 的 网 络 数据 采集 /信息 处 理 软件 ,通过 灵活 的 配置 ,可 以 很 轻松 
迅速 地 从 网 页 上 抓 取 结 构 化 的 文本 、 图 片 文 件 等 资源 信息 ,可 编辑 筛选 处 理 后 选择 发 布 到 
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乐 思 软件 EZER SRI += 400-603-8000 
乐 思 与 情 监测 ， 发 现 快 信息 全 





REIS 


youuss 微 博 
1-30 分 钟 发 现 最 新 最 全 和 与 情 , 让 您 及 时 掌控 全 局 ! 
* RAR: 2012-2013: RRR AAHAS D 
乐 思 网 络 与 情 监测 系统 乐 思 网 络 信息 采集 系统 乐 思 网 络 信息 中 心 系统 






MiA IL ATEA 
PIRRE RN 


© HAURAN ÈM. © 大 erame @ 
MURO. $ü ü ERLE. Sigit pf 
E$ it RER E$ i30872 8 + ERRAT 
图 2-16 ” 乐 思 网 络 信息 采集 系统 官方 网 站 

网 站 后 台 、 各 类 文件 或 其 他 数据 库 系 统 中 。 它 被 广泛 应 用 于 数据 采集 挖掘 ,垂直 搜索 、 信 息 
汇聚 和 门户 ,企业 网 信息 汇聚 商业 情报 ,论坛 或 博客 迁移 ,智能 信息 代理 ,个 人 信息 检索 等 
领域 ,适用 于 各 类 对 数据 有 采集 挖掘 需求 的 群体 。 

官方 网 站 地 址 为 http://www. locoy. com/ ,如 图 2-17 所 示 。 
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图 2-17 火车 采集 器 官方 网 站 
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11. 狂人 采集 器 


狂人 采集 器 是 一 套 专业 的 网 站 内 容 采 集 软件 ,支持 各 类 论坛 的 帖子 和 回复 采集 ,网 站 和 
博客 文章 内 容 抓 取 ,通过 相关 配置 ,能 轻松 地 采集 80%% 的 网 站 内 容 为 已 所 用 。 根 据 各 建站 
程序 的 区 别 , 狂 人 采集 器 分 论坛 采集 器 .CMS 采集 器 和 博客 采集 器 三 类 ,总 计 支 持 近 40 种 
主流 建站 程序 的 上 百 个 版 本 的 数据 采集 和 发 布 任务 ,支持 图 片 本 地 化 ,支持 网 站 登录 采集 、 
分 页 抓 取 , 全 面 模拟 人 工 登录 发 布 , 软 件 运行 快速 安全 稳定 。 狂 人 采集 器 还 支持 论坛 会 员 无 
限 注册 ,自动 增加 帖子 查看 人 数 ,自动 顶 帖 等 。 

官方 网 站 地 址 为 http://www. kuangren. cc/ ,如 图 2-18 所 示 。 
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图 2-18 狂人 采集 器 官方 网 站 


12. 网 络 矿工 

网 络 矿 工 数据 采集 软件 是 一 款 集 互联 网 数据 采集 清洗、 存储 、 发 布 为 一 体 的 工具 软件 。 
它 具 有 高 效 的 采集 性 能 ,能 够 从 网 络 获取 最 小 的 数据 ,从 中 提取 需要 的 内 容 , 优 化 核心 匹配 
算法 ,存储 最 终 的 数据 。 网 络 矿工 可 按照 用 户 数量 授权 ,不 绑 定 计算 机 ,可 随时 切换 计算 机 。 

官方 网 站 地 址 为 http: // www. minerspider. com/ ,如 图 2-19 所 示 。 
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图 2-19 网 络 矿 工 官方 网 站 
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第 2 章 大 数据 采集 及 预 处 理 A 
ER ef en w r 

以 上 各 采集 工具 均 可 进入 官方 网 站 下 载 免 费 版 或 试用 版 ,或 者 根据 用 户 需求 购买 专业 
版 ,以 及 跟 在 线 客 服 人 员 提 出 采集 需求 ,采用 付费 方式 由 专业 人 员 提 供 技术 支持 。 下 面 以 网 
络 矿工 举例 ,操作 步骤 如 下 。 

(1) 进入 网 络 矿工 官方 网 站 ,下 载 免费 版 ,本 例 下 载 的 是 sominerv5. 33( 通 常 免费 版 有 
试用 期 限 ,一 般 为 30 天 )。 网 络 矿工 的 运行 需要 . NET Framework 2. 0 环境 ,建议 使 用 
Firefox 浏览 器 。 

(2) 下 载 的 压缩 文件 内 包含 多 个 可 执行 程序 ,其 中 SoukeyNetget. exe 为 网 络 矿工 采集 
软件 ,运行 此 文件 即 可 打开 网 络 矿工 ,操作 界面 如 图 2-20 所 示 。 
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图 2-20 网络 矿工 采集 器 操作 界面 图 


(3) 单 击 “ 新 建 采集 任务 分 类 ”, 在 弹出 的 "新 建 任务 类 别 " 中 输入 类 别名 称 ,并 保存 存储 
路 径 , 如 图 2-21 所 示 。 








Q raes O 
== | 

类 别名 称 = 
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存储 路 径 : sktepvsowinerv5. 33\5oNinerV5 39vtasks\ 新 避 






















图 2-21 新 建 任务 类 别 操作 界面 图 


(4) 在 “采集 任务 管理 "中 右 击 “新 建 采 集 任务 ”, 如 图 2-22 所 示 。 在 弹出 的 “新 建 采集 
任务 ”中 输入 任务 名 称 , 如 图 2-23 所 示 。 

G) 在 “新 建 采 集 任务 ”中 单 击 “ 增 加 采集 网 址 ”, 在 弹出 的 操作 页 面 中 输入 采集 网 址 ,如 
http://news. baidu. com/ 。 选 中 “导航 采集 ”, 并 单 击 “ 增 加 ”按钮 ,如 图 2-24 所 示 。 

(6) 在 “导航 页 规则 配置 页 面 中 ,可 选 “ 前 后 标记 配置 “可 视 化 配置 ?等 选项 , 如 
图 2-25 所 示 。 

(7) 若 在 上 面 选 择 * 可 视 化 配置 ”, 则 会 弹出 “导航 页 规则 配置 ,如 图 2-26 所 示 。 
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图 2-23 输入 任务 名 称 
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如 无 法 用 参数 代 普 多 条 网 址 ， 可 手工 输入 多 个 网 址 ， 每 行 一 个 。 va =][2m | 


图 2-24 输入 任务 名 称 


导航 通常 是 通过 一 个 地 址 导航 多 个 地 址 ,而 XPath 获取 的 是 一 个 信息 ,所 以 可 以 通过 
XPath 插入 参数 进 XPath 列表 ,进行 多 个 地 址 的 采集 。 单 击 “ 可 视 化 提取 ”按钮 , 则 会 弹出 
“可 视 化 采集 配置 器 "对话 框 ,然后 单 击 工具 栏 中 的 “开始 捕获 ”按钮 ,鼠标 在 页 面 滑动 时 会 出 
现 一 个 蓝 色 的 边框 ,用 蓝 色 的 边框 选中 第 一 条 新 闻 单 击 ,然后 再 选中 最 后 一 条 新 闻 单 击 , 系 
统 会 自动 捕获 导航 规则 ,如 图 2-27 所 示 。 
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导航 规则 提取 范围 (如 不 填写 ， 则 在 整个 页 面 进行 四 轨 》: 
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图 2-25 “导航 页 规则 配置 "对 话 框 
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图 2-26 ”可视化 配置 


gus. — M—-br—Fnn 
开始 捕获 y 确定 退出 p 取消 退出 
http://news. bai da. com/ 























新 闻 网 页 贴吧 4 


Bai ii 


@ 新 闻 全 文 MTE 





热点 要 闻 MHEG 


"国生 同志 光村 国王 举行 会 说 








图 2-27 “可 视 化 采集 配置 器 "对 话 框 





= kde saat 


确定 退出 后 配置 完成 。 选 中 刚才 配置 的 网 址 , 单 击 * 测 试 网 址 解析 ”, 可 以 看 到 系统 已 经 
将 需要 采集 的 新 闻 地 址 解析 出 来 ,表示 配置 成 功 。 

(8) 配置 采集 数据 的 规则 : 要 采集 新 闻 的 正文 ,标题 .发布 时 间 , 可 以 用 三 种 方式 来 完 
成 , 即 智能 采集 、 可 视 化 采集 和 规则 配置 。 以 智能 采集 为 例 , 回 到 "新 建 采集 任务 "对 话 框 中 ， 


单 击 " 采 


集 数据 ”, 然 后 单 击 * 配 置 助手 ”, 如 图 2-28 所 示 。 
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图 2-28 选择 “采集 数据 ” 


在 弹出 的 "采集 规则 自动 化 配置 "中 ,在 地 址 栏 输入 采集 地 址 ,同时 单 击 " 生 成 文章 采集 
规则 ”, 可 以 看 到 系统 已 经 将 文章 的 智能 规则 输入 到 系统 中 , 单 击 “ 测 试 " 按 钮 可 以 检查 采集 
结果 是 否 正确 ,如 图 2-29 所 示 。 确 定 退 出 就 完成 了 配置 。 
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图 2-29 采集 规则 自动 化 配置 


O) 单 击 “ 应 用 ”按钮 保存 测试 采集 。 在 返回 的 “新 建 采集 任务 ”对 话 框 中 , 单 击 “ 采 集 任 
务 测试 ”, 在 弹出 的 操作 页 面 中 单 击 “ 启 动 测试 "按钮 ,如 图 2-30 所 示 。 


C 


0) 任务 设置 完成 后 ,返回 最 初 操作 的 界面 :如 图 2-31 所 示 。 选 中 任务 右 击 ,选择 “ 启 


动 任务 "选项 ,可 以 看 到 下 面 屏幕 滚动 ,停止 则 采集 完成 。 


d 


1) 采集 任务 完成 后 ,任务 将 以 . smt 文件 形式 保存 在 安装 路 径 的 tasks HERA. Hi 


击 采集 任务 的 名 称 , 在 弹出 的 快捷 菜单 内 选择 数据 导出 的 格式 ,包括 文本 .Excel 和 Word 


等 ,如 





图 2-32 所 示 。 如 选择 “导出 Excel”, 导 出 结果 如 图 2-33 所 示 。 
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图 2-31 启动 采集 任务 
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图 2-32 选择 数据 导出 格式 
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图 2-33 导出 Excel 结果 


以 上 完成 了 一 个 简单 的 采集 任务 。 以 后 可 在 “已 经 完成 的 任务 "栏目 中 查看 已 经 下 载 的 
数据 ,选中 任务 右 击 后 也 可 以 进行 查看 、 编 辑 和 发 布 数据 等 操作 。 


本 章 
本 章 主要 介绍 大 数据 的 采集 、 大 数据 采集 的 数据 来 源 、 大 数据 采集 的 技术 方法 和 大 数据 


的 预 处 理 , 以 及 大 数据 采集 与 预 处 理 的 一 些 工 具 和 简单 的 采集 任务 执行 范例 。 大 数据 采集 
后 为 了 减少 及 避免 后 续 的 数据 分 析 和 数据 挖掘 中 可 能 出 现 的 问题 ,有 必要 对 数据 进行 预 处 
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理 。 数 据 的 预 处 理 主要 完成 对 已 经 采集 到 的 数据 进行 适当 的 处 理 、 清 洗 ,去 噪 及 进一步 的 集 
成 存储 。 

【注释 】 

1. PV 值 : 即 页 面 浏 览 量 ,通常 是 衡量 一 个 网 络 新 闻 频 道 或 网 站 甚至 一 条 网 络 新 闻 的 主要 指标 。 网 页 
浏览 数 是 评价 网 站 流量 最 常用 的 指标 之 一 ,简称 为 PV。 

2. 并 发 : 在 操作 系统 中 ,是 指 一 个 时 间 段 中 有 几 个 程序 都 处 于 已 启动 运行 到 运行 完毕 之 间 , 且 这 几 个 
程序 都 在 同一 个 处 理 机 上 运行 ,但 任 一 个 时 刻 点 上 只 有 一 个 程序 在 处 理 机 上 运行 。 

3. ERP(Enterprise Resource Planning ,企业 资源 计划 ): 是 指 建立 在 信息 技术 基础 上 ,以 系统 化 的 管理 
思想 ,为 企业 决策 层 及 员工 提供 决策 运行 手段 的 管理 平台 。 

4. POS(Point Of Sale); 是 一 种 多 功能 终端 ,把 它 安装 在 信用 卡 的 特约 商户 和 受理 网 点 中 与 计算 机 联 
成 网 络 ,就 能 实现 电子 资金 自动 转账 , 它 具 有 支持 消费 、 预 授权 余额 查询 和 转账 等 功能 ,使 用 起 来 安全 、 快 
捷 、 可 靠 。 

5. 射频 识别 : 又 称 无 线 射频 识别 ,是 一 种 通信 技术 ,可 通过 无 线 电信 号 识别 特定 目标 并 读 写 相关 数 
据 , 而 无 须 在 识别 系统 与 特定 目标 之 间 建 立 机 械 或 光学 接触 。 

6. URL(Uniform Resource Locator, 统 一 资源 定位 符 ): 是 对 可 以 从 互联 网 上 得 到 的 资源 的 位 置 和 访 
问 方 法 的 一 种 简洁 的 表示 ,是 互联 网 上 标准 资源 的 地 址 。 互 联网 上 的 每 个 文件 都 有 一 个 唯一 的 URL, 它 包 
含 的 信息 指出 文件 的 位 置 以 及 浏览 器 应 该 怎么 处 理 它 。 

7. API(Application Programming Interface, 应 用 程序 编程 接口 ): 是 一 些 预先 定义 的 函数 ,目的 是 提 
供应 用 程序 与 开发 人 员 访 问 软件 或 硬件 的 能 力 , API 无 须 访问 源码 ,也 无 须 理解 系统 内 部 工作 机 制 的 
细节 。 

8. DPI(Deep Packet Inspection, 深 度 包 检 测 ): 是 一 种 基于 应 用 层 的 流量 检测 和 控制 技术 , 当 IP 数据 
{TCP 或 UDP 数据 流通 过 基于 DPI 技 术 的 带宽 管理 系统 时 ,该 系统 通过 深入 读 取 IP 包 载 荷 的 内 容 来 对 
OSI 七 层 协议 中 的 应 用 层 信息 进行 重组 ,从 而 得 到 整个 应 用 程序 的 内 容 , 然 后 按照 系统 定义 的 管理 策略 对 
流量 进行 整形 操作 。 

9. DFI(Deep/Dynamic Flow Inspection, 深 度 / 动 态 流 检 测 ): 它 与 DPI 进行 应 用 层 的 载荷 匹配 不 同 , 采 
用 的 是 一 种 基于 流 基 行为 的 应 用 识别 技术 , 即 不 同 的 应 用 类 型 体现 在 会 话 连接 或 数据 流 上 的 状态 各 有 
不 同 。 

10. 集群 存储 : 是 将 多 台 存 储 设备 中 的 存储 空间 聚合 成 一 个 能 够 给 应 用 服务 器 提供 统一 访问 接口 和 
管理 界面 的 存储 池 ,应 用 可 以 通过 该 访问 接口 透明 地 访问 和 利用 所 有 存储 设备 上 的 磁盘 ,可 以 充分 发 挥 存 
储 设备 的 性 能 和 磁盘 利用 率 。 数 据 将 会 按照 一 定 的 规则 从 多 台 存 储 设 备 上 存储 和 读 取 ,以 获得 更 高 的 并 
发 访问 性 能 。 

11. 分 布 式 处 理 : 分 布 式 处 理 则 是 将 不 同 地 点 的 ,或 具有 不 同 功能 的 ,或 拥有 不 同 数据 的 多 台 计 算 机 
通过 通信 网 络 连接 起 来 ,在 控制 系统 的 统一 管理 控制 下 ,协调 地 完成 大 规模 信息 处 理 任务 的 计算 机 系统 。 

12. 分 布 式 数据 库 : 是 指 利用 高 速 计算 机 网 络 将 物理 上 分 散 的 多 个 数据 存储 单元 连接 起 来 组 成 一 个 
逻辑 上 统一 的 数据 库 。 分 布 式 数据 库 的 基本 思想 是 将 原来 集中 式 数据 库 中 的 数据 分 散 存储 到 多 个 通过 网 
络 连接 的 数据 存储 结 点 上 ,以 获取 更 大 的 存储 容量 和 更 高 的 并 发 访问 量 。 

13. 布 隆 过 滤器 : 布 隆 过 滤器 是 一 个 很 长 的 二 进 制 向 量 和 一 系列 随机 映射 函数 ,可 以 用 来 检索 一 个 元 
素 是 否 在 一 个 集合 中 。 它 的 优点 是 空间 效率 和 查询 时 间 都 远 远 优 于 一 般 的 算法 ,缺点 是 有 一 定 的 误 识 别 
率 和 删除 困难 。 

14. OpenStack: 是 一 个 开源 的 云 计算 管理 平台 项 目 ,由 几 个 主要 的 组 件 组 合 起 来 完成 具体 工作 。 
OpenStack 支持 几乎 所 有 类 型 的 云 环境 ,项 目 目 标 是 提供 实施 简单 .可 大 规模 扩展 、 丰 富 、 标 准 统 一 的 云 计 
算 管理 平台 。 
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内 容 与 要 求 


本 章 主要 介绍 了 大 数据 分 析 的 基本 方法 和 流程 ,大 数据 分 析 处 理 系统 ,大 数据 分 析 

的 主要 技术 ,以 及 大 数据 分 析 的 应 用 ,使 读者 对 大 数据 分 析 有 个 概括 性 的 了 解 和 掌握 。 

大 数据 分 析 简介 部 分 要 求 理 解 大 数据 分 析 ; 掌握 大 数据 分 析 的 基本 方法 及 流程 。 

大 数据 分 析 的 主要 技术 部 分 要 求 熟悉 一 些 大 数据 分 析 的 关键 技术 ,并 对 它们 的 作用 
有 所 了 解 。 

大 数据 分 析 处 理 系统 部 分 要 求 掌 握 四 种 类 型 大 数据 的 特点 并 了 解 相对 应 的 典型 分 
析 处 理 系统 。 

大 数据 分 析 的 应 用 部 分 要 求 对 网 络 与 医学 大 数据 的 分 析 有 所 了 解 。 





重点 、 难 点 


本 章 的 重点 是 大 数据 分 析 的 方法 、 流 程 .关键 技术 和 典型 分 析 系 统 。 难 点 是 对 大 数 
据 分 析 的 关键 技术 的 理解 。 


























当今 越 来 越 多 的 应 用 领域 涉及 到 大 数据 ,这 些 数据 在 数量 .速度 .多样 性 等 方面 都 呈现 
了 不 断 增长 的 复杂 性 ,只 有 通过 对 相应 领域 大 数据 的 分 析 , 才 能 挖掘 出 适合 该 领域 业务 的 有 
价值 的 信息 ,从 而 更 好 地 促进 相应 业务 的 发 展 。 所 以 对 不 同 领域 大 数据 的 分 析 尤 为 重要 ,是 
各 个 领域 今后 发 展 的 关键 所 在 。 
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3.1 大 数据 分 析 简 介 


在 方兴未艾 的 大 数据 时 代 , 人 们 要 掌握 大 数据 分 析 的 基本 方法 和 分 析 流 程 , 从 而 探索 出 
大 数据 中 蕴含 的 规律 与 关系 ,解决 实际 业务 问题 。 


3.1.1 什么 是 大 数据 分 析 


大 数据 分 析 是 指 对 规模 巨大 的 数据 进行 分 析 , 其 目的 是 通过 多 个 学 科技 术 的 融合 ,实现 
数据 的 采集 、 管 理 和 分 析 , 从 而 发 现 新 的 知识 和 规律 。 大 数据 时 代 的 数据 分 析 , 首 先 要 解决 
的 是 海量 结构 多 变 动态 实时 的 数据 存储 与 计算 问题 ,这 些 问题 在 大 数据 解决 方案 中 至 关 
重要 ,决定 了 大 数据 分 析 的 最 终结 果 。 

看 个 案例 来 初步 认识 大 数据 分 析 : 美国 福特 公司 利用 大 数据 分 析 促 进 汽车 销售 。 分 析 
过 程 如 图 3-1 所 示 。 

(1) 提出 问题 : 用 大 数据 分 析 技 术 来 提升 汽车 销售 业绩 。 一 般 汽 车 销售 商 的 普通 做 法 
是 投放 广告 , 动 辑 就 是 几 百 万 ,而 且 很 难 分 清 广告 促销 的 作用 到 底 有 多 大 。 大 数据 技术 不 一 
样 , 它 可 以 通过 对 某 个 地 区 可 能 会 影响 购买 汽车 意愿 的 源 数 据 进行 收集 和 分 析 , 如 房屋 市 
场 . 新 建 住宅 .库存 和 销售 数据 .这 个 地 区 的 就 业 率 等 ; 还 可 利用 与 汽车 相关 的 网 站 上 的 数 
据 进行 分 析 , 如 客户 搜索 了 哪些 汽车 . 哪 一 种 款式 的 汽车 ,汽车 的 价格 .车 型 配置 .汽车 功能 、 
汽车 颜色 。 

(2) 数据 采集 : 分 析 团 队 搜索 采集 所 需 的 外 部 数据 ,如 第 三 方 合 同 网 站 .区域 经 济 数 

(3) 数据 分 析 : 对 采集 的 数据 进行 分 析 挖 掘 ,为 销售 提供 精准 可 靠 的 分 析 结 果 , 即 提供 
多 种 可 能 的 促销 分 析 方案 。 

(4) 结果 应 用 : 根据 数据 分 析 结 果实 施 有 针对 性 的 促销 计划 ,如 在 需求 量 旺盛 的 地 方 
有 专门 的 促销 计划 ,哪个 地 区 的 消费 者 对 某 款 汽车 感 兴趣 ,相应 广告 就 送 到 其 电子 邮箱 和 地 
区 的 报纸 上 ,非常 精准 ,只 需要 较 少 的 费用 。 

(5) 效果 评估 : 与 传统 的 广告 促销 相 比 ,通过 大 数据 的 创新 营销 ,福特 公司 花 了 很 少 的 
钱 , 做 了 大 数据 分 析 产 品 ,也 可 叫 大 数据 促销 模型 ,大 幅度 地 提高 了 汽车 的 销售 业绩 。 








图 3-1 福特 促进 汽车 销售 的 大 数据 分 析 流程 


3.1.2 大 数据 分 析 的 基本 方法 

大 数据 分 析 可 以 分 为 如 下 5 种 基本 方法 。 

1. 预测 性 分 析 

大 数据 分 析 最 普遍 的 应 用 就 是 预测 性 分 析 , 从 大 数据 中 挖掘 出 有 价值 的 知识 和 规则 , 通 
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过 科学 建 模 的 手段 呈现 出 结果 ,然后 可 以 将 新 的 数据 带 入 模型 ,从 而 预测 未 来 的 情况 。 

例如 , 麻 省 理工 学 院 的 研究 者 约翰 。 PR 
Guttag) 和 柯 林 。， 斯 塔 尔 兹 (Collin Stultz) 创建 了 一 
rie te eg ed 
据 ,如 图 3-2 所 示 。 他 们 利用 数据 挖 气 和 机 器 学 习 在 海 
量 的 数据 中 筛选 ,发 现 心电图 中 出 现 三 类 异常 者 一 年 
内 死 于 第 二 次 心脏 病 发 作 的 几率 比 未 出 现 者 高 1 一 2 
倍 。 这 种 新 方法 能 够 预测 出 更 多 的 、 无 法 通过 现 有 的 
风险 筛 查 被 探查 出 的 高 危 病 人 。 


2. 可 视 化 分 析 


不 管 是 对 数据 分 析 专家 还 是 普通 用 户 ,对 大 数据 
分 析 最 基本 的 要 求 就 是 可 视 化 分 析 , 因 为 可 视 化 分 析 
能 够 直观 地 呈现 大 数据 特点 ,同时 能 够 非常 容易 被 用 图 32 心电图 大 数据 分 析 

户 所 接受 ,就 如 同 看 图 说 话 一 样 简单 明了 。 可 视 化 可 

以 直观 地 展示 数据 ,让 数据 自己 说 话 ,让 观众 听 到 结果 。 数 据 可 视 化 是 数据 分 析 工具 最 基本 
的 要 求 。 如 图 3-3 展示 了 报纸 发 行 量 的 可 视 化 分 析 , 图 3-4 展示 了 超市 开业 情况 的 地 理 位 
置 可 视 化 分 析 。 
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图 3-3 北京 日 报 发 行 量 数据 分 析 图 3-4 超市 新 店 开业 数据 分 析 


3. 大 数据 挖掘 算法 


可 视 化 分 析 结果 是 给 用 户 看 的 ,而 数据 挖掘 算法 是 给 计算 机 看 的 ,通过 让 机 器 学 习 算 
法 , 按 人 的 指令 工作 ,从 而 呈现 给 用 户 隐 藏 在 数据 之 中 的 有 价值 的 结果 。 大 数据 分 析 的 理论 
核心 就 是 数据 挖掘 算法 ,算法 不 仅 要 考虑 数据 的 量 , 也 要 考虑 处 理 的 速度 。 目 前 在 许多 领域 
的 研究 都 是 在 分 布 式 计算 框架 上 对 现 有 的 数据 挖掘 理论 加 以 改进 ,进行 并 行 化 ,分 布 式 
处 理 。 

常用 的 数据 挖掘 方法 有 分 类 、 预 测 、 关 联 规则 、 聚 类 、 决 策 树 、 描 述 和 可 视 化 、 复 杂 数 据 类 
型 挖掘 (Text、Web 、 图 形 图 像 . 视 频 、 音 频 ) 等 。 有 很 多 学 者 对 大 数据 挖掘 算法 进行 了 研究 
和 文献 发 表 。 
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例如 ,有 文献 提出 了 对 适合 慢性 病 分 类 的 C4. 5 决策 树 算法 进行 改进 , 对 基于 
MapReduce 编程 框架 进行 算法 的 并 行 化 改造 。 

有 文献 对 数据 挖掘 技术 中 的 关联 规则 算法 进行 研究 ,并 通过 引入 兴趣 度 对 经 典 Apriori 
算法 进行 改进 ,提出 了 一 种 基于 MapReduce 的 改进 的 Apriori 医疗 数据 挖掘 算法 。 

有 文献 在 高 可 靠 安全 的 Hadoop 平台 上 ,结合 传统 分 类 聚 类 算法 的 特点 给 出 了 一 种 基 
于 云 计算 的 数据 挖掘 系统 的 设计 方案 。 


4. 语义 引擎 


数据 的 含义 就 是 语义 。 语 义 技术 是 从 词语 所 表达 的 语义 层次 上 来 认识 和 处 理 用 户 的 检 
索 请 求 。 

语义 引擎 通过 对 网 络 中 的 资源 对 象 进行 语义 上 的 标注 ,以 及 对 用 户 的 查询 表达 进行 语 
义 处 理 ,使 得 自然 语言 具备 语义 上 的 逻辑 关系 ,能 够 在 网 络 环境 下 进行 广泛 有 效 的 语义 扒 
理 , 从 而 更 加 准确 全面 地 实现 用 户 的 检索 。 大 数据 分 析 广 泛 应 用 于 网 络 数据 挖掘 ,可 从 用 
户 的 搜索 关键 词 来 分 析 和 判断 用 户 的 需求 ,从 而 实现 更 好 的 用 户 体验 。 

例如 ,一 个 语义 搜索 引擎 试图 通过 上 下 文 来 解读 搜索 结果 , 它 可 以 自动 识别 文本 的 概念 
结构 。 如 你 搜索 "选举 ”, 语 义 搜索 引擎 可 能 会 获取 包含 “投票 “竞选 "和 “选票 ”的 文本 信息 ， 
但 是 “选举 ?这 个 词 可 能 根本 没有 出 现在 这 些 信 息 来 源 中 。 也 就 是 说 语义 搜索 可 以 对 关键 词 
的 相关 词 和 类 似 词 进行 解读 ,从 而 扩大 搜索 信息 的 准确 性 和 相关 性 。 


5. 数据 质量 和 数据 管理 


数据 质量 和 数据 管理 是 指 为 了 满足 信息 利用 的 需要 ,对 信息 系统 的 各 个 信息 采集 点 进 
行规 范 ,包括 建立 模式 化 的 操作 规程 .原始 信息 的 校 验 、 错 误 信息 的 反馈 .矫正 等 一 系列 的 过 
程 。 大 数据 分 析 离 不 开 数据 质量 和 数据 管理 ,高 质量 的 数据 和 有 效 的 数据 管理 ,无 论 是 在 学 
术 研 究 还 是 在 商业 应 用 领域 ,都 能 够 保证 分 析 结果 的 真实 和 有 价值 。 

例如 ,假设 一 个 银行 的 客户 文件 中 有 500 000 个 客户 。 银 行 计划 向 所 有 客户 以 邮寄 方 
式 直接 发 送 新 产品 的 广告 。 如 果 客 户 文件 中 的 错误 率 是 10%% ,包括 重复 的 客户 记录 、 过 时 
的 地 址 等 ,假如 邮寄 的 直接 成 本 是 5. 00 美元 (包括 邮资 和 材料 费 ), 则 由 于 糟糕 数据 而 产生 
的 预期 损失 是 : 500 000 客户 X0.10X5, 即 250 000 美元 。 可 见 在 充满 “垃圾 ”的 大 数据 环境 
中 也 只 能 提取 出 毫 无 意义 的 “垃圾 ”信息 ,甚至 导致 数据 分 析 失 败 , 因 此 数据 质量 在 大 数据 环 
境 下 显得 尤其 重要 。 

综 上 所 述 , 大 数据 分 析 的 基础 就 是 以 上 5 个 方面 ,如 果 进 行 更 加 深入 的 大 数据 分 析 , 还 
需要 更 加 专业 的 大 数据 分 析 手 段 .方法 和 工具 的 运用 。 


3.1.3 大 数据 处 理 流 程 


整个 处 理 流程 可 以 分 解 为 提出 问题 数据 理解 .数据 采集 ,数据 预 处 理 、 数 据 分 析 、 分 析 
结果 的 解析 等 ,具体 如 图 3-5 所 示 。 


1. 提出 问题 


大 数据 分 析 就 是 解决 具体 业务 问题 的 处 理 过 程 ,这 需要 在 具体 业务 中 提炼 出 准确 的 实 
现 目标 ,也 就 是 首先 要 制定 具体 需要 解决 的 问题 ,如 图 3-6 所 示 。 
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图 3-5 大 数据 分 析 处 理 流程 图 












我 们 要 什么 样 的 数据 分 析 结 果 ? 业务 调研 











问题 定位 





可 解释 、 有 实际 业务 涵义 、 可 使 用 的 分 析 结 果 ! 制定 目标 








图 3-6 提出 问题 制定 分 析 目 标 


2. 数据 理解 





大 数据 分 析 是 为 了 解决 业务 问题 ,理解 问题 要 基于 业务 知识 ,数据 理解 就 是 利用 业务 知 
识 来 认识 数据 。 如 大 数据 分 析 “ 饮 食 与 疾病 的 关系 “糖尿 病 与 高 血压 的 发 病 关 系 ”, 这 些 分 
析 都 需要 对 相关 医学 知识 有 足够 的 了 解 才能 理解 数据 并 进行 分 析 。 只 有 对 业务 知识 有 深入 
的 理解 才能 在 大 数据 中 找 准 分 析 指 标 和 进一步 会 衍生 出 的 指标 ,从 而 抓 住 问题 的 本 质 挖 掘 
出 有 价值 的 结果 ,如 图 3-7 所 示 。 














理解 数据 特征 及 分 布 控制 数据 质量 指标 选择 衍生 指标 





图 3-7 理解 数据 获得 分 析 指标 


3. 数据 采集 


传统 的 数据 采集 来 源 单一 , 且 存 储 、 管 理 和 分 析 的 数据 量 也 相对 较 小 ,大 多 采用 关系 型 
数据 库 和 并 行 数据 仓库 即 可 处 理 。 大 数据 的 采集 可 以 通过 系统 日 志 采 集 方法 、 非 结构 化 数 
据 采集 方法 、 企 业 特定 系统 接口 等 相关 方式 采集 。 例 如 利用 多 个 数据 库 来 接收 来 自 客户 端 
(Web, App 或 者 传感器 等 ) 的 数据 , 电 商 会 使 用 传统 的 关系 型 数据 库 MySQL 和 Oracle 等 
来 存储 每 一 笔 事务 数据 , 除 此 之 外 .Redis 和 MongoDB 这 样 的 NoSQL 非 结构 化 数据 库 也 
常用 于 数据 的 管理 。 
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4. 数据 预 处 理 


如 果 要 对 海量 数据 进行 有 效 的 分 析 , 应 该 将 数据 导入 到 一 个 集中 的 大 型 分 布 式 数据 库 ， 
或 者 分 布 式 存储 集群 ,并 且 可 以 在 导入 基础 上 做 一 些 简 单 的 清洗 和 预 处 理工 作 。 也 有 一 些 
用 户 会 在 导入 时 对 数据 进行 流 式 计算 ,来 满足 部 分 业务 的 实时 计算 需求 。 导 和 与 预 处 理 过 
程 的 特点 和 挑战 主要 是 导入 的 数据 量 大 ,每 秒 钟 的 导入 量 经 常会 达到 百 兆 ,甚至 千 兆 级 别 。 


5. 数据 分 析 


数据 分 析 包 括 对 结构 化 、 半 结构 化 及 非 结 构 化 数据 的 分 析 , 主 要 利用 分 布 式 数据 库 , 或 
者 分 布 式 计算 集群 来 对 存储 于 其 内 的 海量 数据 进行 分 析 , 如 分 类 汇总 、 基 于 各 种 算法 的 高 级 
别 计算 等 ,涉及 的 数据 量 和 计算 量 都 很 大 。 


6. 分 析 结 果 的 解析 
对 用 户 来 讲 最 关心 的 是 数据 分 析 结果 与 解析 ,对 结果 的 理解 可 以 通过 合适 的 展示 方式 ， 
如 可 视 化 和 人 机 交互 等 技术 来 实现 。 


3.2 大 数据 分 析 的 主要 技术 


大 数据 分 析 的 主要 技术 有 深度 学 习 、 知 识 计 算 及 可 视 化 等 ,深度 学 习 和 知识 计算 是 大 数 
据 分 析 的 基础 ,而 可 视 化 在 数据 分 析 和 结果 呈现 的 过 程 中 均 起 作用 。 


3.2.1 深度 学 习 





1. 认识 深度 学 习 


深度 学 习 是 一 种 能 够 模拟 出 人 脑 的 神经 结构 的 机 器 学 习 方式 ,从 而 能 够 让 计算 机 具有 
人 一 样 的 智慧 。 其 利用 层次 化 的 架构 学 习 出 对 象 在 不 同 层 次 上 的 表达 ,这 种 层次 化 的 表达 
可 以 帮助 解决 更 加 复杂 抽象 的 问题 。 在 层次 化 中 ,高 层 的 概念 通常 是 通过 低层 的 概念 来 定 
义 的 ,深度 学 习 可 以 对 人 类 难以 理解 的 底层 数据 特征 进行 层 层 抽象 , 从 而 提高 数据 学 习 的 精 
度 。 让 计算 机 模仿 人 脑 的 机 制 来 分 析 数 据 , 建 立 类 似 人 脑 的 神经 网 络 进行 机 器 学 习 , 从 而 实 
现 对 数据 进行 有 效 表达 、 解 释 和 学 习 , 这 种 技术 在 将 来 无 疑 是 前 景 无 限 的 。 


2. 深度 学 习 的 应 用 


近 几 年 ,深度 学 习 在 语音 、 图 像 以 及 自然 语言 理解 等 应 用 领域 取得 一 系列 重大 进展 。 在 
然 语言 处 理 等 领域 主要 应 用 于 机 器 翻译 以 及 语义 挖掘 等 方面 ,国外 的 IBM, Google 等 公 
都 迅速 进行 了 语音 识别 的 研究 ; 国内 的 阿里 巴巴 、 科 大 讯 飞 、 百 度 、 中 科 院 自动 化 所 等 公 
或 研究 单位 ,也 在 进行 深度 学 习 在 语音 识别 上 的 研究 。 

深度 学 习 在 图 像 领 域 也 取得 了 一 系列 进展 。 如 微软 推出 的 网 站 how-old, 用 户 可 以 上 
传 自 己 的 照片 “ 估 龄 "。 系 统 根据 照片 会 对 有 瞳孔、 眼角、 鼻子 等 27 个 “面部 地 标点 ”展开 分 析 ， 
判断 照片 上 人 物 的 年 龄 ,如 图 3-8 所 示 。 百 度 在 此 方向 也 做 出 了 很 大 的 成 绩 ,由 百度 牵头 的 
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分 布 式 深度 机 器 学 习 开 源 平 台 日 前 正式 面向 公众 开放 ,该 平台 素 属 于 名 为 “ 深 盟 ” 的 开源 组 


织 ,该 组 织 核心 开发 者 来 自 百度 深度 学 习 研 究 院 
ADL) 微软 亚洲 研究 院 、 华 盛 顿 大 学 、 纽 约 大 学 、 香 港 
科技 大 学 、 卡 耐 基 ， 梅 隆 大 学 等 知名 公司 和 高 校 。 

举例 : 德国 用 深度 学 习 算 法 让 人 工 智 能 系统 学 习 
AE e Ph BGU. 

2015 年 8 月 26 日 ,德国 一 个 综合 神经 科学 研究 所 
用 深度 学 习 算法 让 人 工 智能 系统 学 习 栖 .高 、 莫 奈 等 
世界 著名 画家 的 画 风 以 绘制 新 的 "人 工 智 能 世界 名 
画 ”。 他 们 在 视觉 感知 的 关键 领域 ,如 物体 和 人 脸 识别 
等 方面 有 了 新 的 解决 方法 ,这 就 是 深层 神经 网 络 。 基 
于 深层 神经 网 络 的 人 工 智能 系统 提供 了 绘画 模仿 , 提 
供 了 神经 创造 艺术 形象 的 算法 ,用 以 理解 和 模拟 人 类 
去 创建 和 感知 艺术 形象 。 该 算法 是 卷 积 神经 网 络 算 


























图 3-8 人 脸 识 别 判断 年 龄 


法 ,模拟 人 类 大 脑 处 理 视 觉 时 的 工作 状态 ,在 目标 识别 方面 较 其 他 可 用 算法 更 好 ,甚至 比 人 


类 专家 更 好 。 


图 3-9 是 德国 一 个 小 镇 的 原始 照片 ,图 3-10 一 图 3-12 的 左下 角 显 示 的 是 名 画 原 作 , 右 


侧 是 图 3-9 经 人 工 智 能 学 习 后 变形 的 效果 。 





图 3-9 Wm 图 3-10 ” 特 纳 弥 诺 陶 洛 斯 的 沉船 风格 的 小 镇 








图 3-11 楚 * 高 的 星夜 风格 的 小 镇 图 3-12 爱德华 " 蒙 克 的 呐喊 风格 的 小 镇 
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<<< 


以 上 这 些 图 像 结合 了 一 些 著名 的 艺术 绘画 风格 ,这 些 图 像 被 创建 时 首先 学 习 艺 术 品 的 
内 容 表示 和 风格 表示 ,然后 应 用 在 给 定 的 图 片 中 ,并 进行 重新 排列 组 合 进行 相似 性 视觉 对 比 
绘画 ,形成 人 工 智 能 版 的 世界 名 画 。 


3.2.2 知识 计算 
1. 认识 知识 计算 


知识 计算 是 从 大 数据 中 首先 获得 有 价值 的 知识 ,并 对 其 进行 进一步 深入 计算 和 分 析 的 
过 程 。 也 就 是 要 对 数据 进行 高 端的 分 析 , 需 要 从 大 数据 中 先 抽 取出 有 价值 的 知识 ,并 把 它 构 
建成 可 支持 查询 ,分 析 与 计算 的 知识 库 。 知 识 计算 是 目前 国内 外 工业 界 开 发 和 学 术 界 研究 
的 一 个 热点 。 知 识 计算 的 基础 是 构建 知识 库 , 知 识 库 中 的 知识 是 显 式 的 知识 。 通 过 利用 显 
式 的 知识 ,人 们 可 以 进一步 计算 出 隐 式 知识 。 知 识 计 算 包 括 属性 计算 .关系 计算 、 实 例 计 
算 等 。 


2. 知识 计算 的 应 用 


目前 ,世界 各 个 组 织 建立 的 知识 库 多 达 五 十 余 种 ,相关 的 应 用 系统 更 是 达到 了 上 百 种 ， 
如 维基 百科 等 在 线 百 科 知 识 构 建 的 知识 库 DBpedia, YAG, Omega, WikiTaxonomy; 
Wolfram 的 知识 计算 平台 WolframAlpha; Google 创建 了 至 今世 界 最 大 的 知识 库 , 名 为 
Knowledge Vault , 它 通过 算法 自动 搜集 网 上 信息 ,通过 机 器 学 习 把 数据 变 成 可 用 知识 , 目 
前 ,Knowledge Vault 已 经 收集 了 16 亿 件 事实 。 知 识 库 除 了 改善 人 机 交互 之 外 ,也 会 推动 
现实 增强 技术 的 发 展 ,Knowledge Vault 可 以 驱动 一 个 现实 增强 系统 ,让 我 们 从 头 戴 显示 屏 
上 了 人 解 现实 世界 中 的 地 标 、 建 筑 、 商 业 网 点 等 信息 。 

知识 图 谱 泛 指 各 种 大 型 知识 库 , 是 把 所 有 不 同 种 类 的 信息 连接 在 一 起 而 得 到 的 一 个 关 
系 网 络 。 这 个 概念 最 早 由 Google 提出 ,提供 了 从 “关系 ”的 角度 去 分 析 问 题 的 能 力 , 知 识 图 
谱 就 是 机 器 大 脑 中 的 知识 库 。 

在 国内 ,中 文 知识 图 谱 的 构建 与 知识 计算 也 有 大 量 的 研究 和 开发 应 用 ,如 图 3-13 是 心 
房 颤 动 知识 图 谱 , 如 图 3-14 所 示 是 心肌 炎 知 识 图 谱 , 如 图 3-15 是 中 药 人 参 知识 图 谱 。 具 有 
代表 性 的 有 中 国 科 学 院 计算 技术 研究 所 的 OpenKN, 中 国 科学 院 数学 研究 院 提 出 的 知 件 
(Knowware) ,上 海 交通 大 学 最 早 构建 的 中 文 知 识 图 谱 平台 zhishi. me, 百 度 推 出 的 中 文 知识 
图 谱 搜索 ,搜狗 推出 的 知 立 方 平台 .复旦 大 学 GDM 实验 室 推出 的 中 文 知识 图 谱 展 示 平 台 
等 。 这 些 知 识 库 必 将 使 知识 计算 发 挥 更 大 的 作用 。 

通过 知识 图 谱 建 立 事物 之 间 的 关联 ,扩展 用 户 搜索 结果 ,可 以 发 现 更 多 内 容 。 例 如 : 利 
用 百度 的 知识 图 谱 搜索 “ 达 。 芬 奇 . 会 得 到 其 生平 介绍 和 他 的 画作 等 相关 内 容 , 如 图 3-16 
所 示 。 


3.2.3 可视化 


可 视 化 是 帮助 大 数据 分 析 用 户 理解 数据 及 解析 数据 分 解 结果 的 有 效 方法 ,可 以 帮助 人 
们 分 析 大 规模 、 高 维度 、 多 来 源 、 动 态 演化 的 信息 ,并 辅助 做 出 实时 的 决策 。 大 数据 可 视 化 的 
主要 手段 有 数据 转换 和 视觉 转换 ,其 主要 方法 有 : 
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图 3-14 心肌 炎 知 识 图 谱 
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图 3-16 通过 知识 图 谱 搜索 到 的 达 ， 芬 奇 画 作 


(1) 对 信息 流 压缩 或 者 删除 数据 中 的 元 余 来 对 数据 进行 简化 ; 
(2) 设计 多 尺度 ,多 层次 的 方法 实现 信息 在 不 同 的 解析 度 上 的 展示 ; 
G) 把 数据 存储 在 外 存 ,并 让 用 户 通过 交互 手段 方便 地 获取 相关 数据 ; 











(4) 新 的 视觉 隐喻 方法 以 全 新 的 方式 展示 数据 ,如 “焦点 十 上 下 文 ”方法 , 它 重点 对 焦点 
数据 进行 细节 展示 ,对 不 重要 的 数据 则 简化 表示 ,例如 鱼 眼 视图 。Plaisant 提出 了 空间 树 
(Space Tree) ,这 种 树 形 浏览 器 通过 动态 调整 树枝 的 尺寸 来 使 其 最 好 地 适 配 显示 区 域 。 


关于 可 视 化 的 具体 处 理 方法 见 第 4 章 。 
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3.3 大 数据 分 析 处 理 系 统 简介 


由 于 大 数据 来 源 广 泛 、 种 类 繁多 结构 多 样 且 应 用 于 众多 不 同 领域 ,所 以 针对 不 同业 务 
需求 的 大 数据 ,应 采用 不 同 的 分 析 处 理 系统 。 


3.3.1 批量 数据 及 处 理 系统 


1. 批量 数据 


批量 数据 通常 数据 体 量 巨 大 ,如 数据 从 TB 级 别 跃升 到 PB 级 别 , 且 是 以 静态 的 形式 存 
储 。 这 种 批量 数据 往往 是 从 应 用 中 沉淀 下 来 的 数据 ,如 医院 长 期 存储 的 电子 病历 等 。 对 这 
种 数据 的 分 析 通 常 使 用 合理 的 算法 ,才能 进行 数据 计算 和 价值 发 现 。 大 数据 的 批量 处 理 系 
统 适用 于 先 存 储 后 计算 、 实 时 性 要 求 不 高 ,但 对 数据 的 准确 性 和 全 面 性 要 求 较 高 的 场景 。 


2. 批量 数据 分 析 处 理 系统 


Hadoop 是 典型 的 大 数据 批量 处 理 架构 ,由 HDFS 负责 静态 数据 的 存储 ,并 通过 
MapReduce 将 计算 逻辑 ` 机 器 学 习 和 数据 挖掘 算 法 实现 。MapReduce 的 工作 原理 实质 是 先 
分 后 合 的 处 理 方式 ,Map 进行 分 解 ,把 海量 数据 分 割 成 若干 部分, 分割 后 的 部 分 发 给 不 同 的 
处 理 机 进行 联合 处 理 , 而 Reduce 进行 合并 ,把 多 台 处 理 机 处 理 的 结果 合并 成 最 终 的 结果 ， 
如 图 3-17 所 示 。 





TCP/IP 
网 络 


| | | | 
数据 结 点 数据 结 点 m” 数据 结 点 数据 结 点 


图 3-17 Reduce 的 简单 工作 原理 





数据 合并 处 理 








关于 Hadoop 与 MapReduce 的 具体 处 理 流 程 和 方法 见 本 书 第 5 和 第 7 章 。 
3.3.2 流 式 数 据 及 处 理 系统 


1. 流 式 数 据 


流 式 数据 是 一 个 无 穷 的 数据 序列 ,序列 中 的 每 一 个 元 素来 源 不 同 、 格 式 复 杂 , 序 列 往往 
包含 时 序 特 性 。 在 大 数据 背景 下 , 流 式 数据 处 理 常 见于 服务 器 日 志 的 实时 采集 ,将 PB 级 数 
据 的 处 理 时 间 缩 短 到 秒 级 。 数 据 流 中 的 数据 格式 可 以 是 结构 化 的 、 半 结构 化 的 其 至 是 非 结 
构 化 的 ,数据 流 中 往往 含有 错误 元 素 、 垃 圾 信息 等 ,因此 流 式 数据 的 处 理 系 统 要 有 很 好 的 容 
错 性 及 不 同 结构 的 数据 分 析 能 力 ,还 能 完成 数据 的 动态 清洗 ,格式 处 理 等 。 
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2. 流 式 数 据 分 析 处 理 系统 


流 式 数 据 处 理 有 Twitter 的 Storm, Facebook 的 Scribe, Linkedin 的 Samza 等 。 其 中 
Storm 是 一 套 分 布 式 、 可 靠 、 可 容错 的 用 于 处 理 流 式 数据 的 系统 ,其 流 式 处 理 作业 被 分 发 至 
不 同类 型 的 组 件 ,每 个 组 件 负责 一 项 简单 的 .特定 的 处 理 任务 。 

Storm 系统 有 其 独特 的 特性 。 

(1) 简单 的 编程 模型 : Storm 提供 类 似 于 MapReduce 的 操作 ,降低 了 并 行 批 处 理 与 实 
时 处 理 的 复杂 性 ; 

(2) 容错 性 : 在 工作 过 程 中 ,如 果 出 现 异常 ,Storm 将 以 一 致 的 状态 重新 启动 处 理 以 恢 
复 正确 状态 ; 

(3) 水 平 扩展 : Storm 拥有 良好 的 水 平 扩展 能 力 , 其 流 式 计算 过 程 是 在 多 个 线程 和 服务 
器 之 间 并 行进 行 的 ; 

(4) 快速 可 靠 的 消息 处 理 : Storm 利用 ZeroMQ 作为 消息 队列 , 极 大 提高 了 消息 传递 的 
速度 ,任务 失败 时 , 它 会 负责 从 消息 源 重 试 消息 。 


3.3.3 交互 式 数据 及 处 理 系统 


1. 交互 式 数据 


交互 式 数据 是 操作 人 员 与 计算 机 以 人 机 对 话 的 方式 一 问 一 答 地 对 话 数据 ,操作 人 员 提 
出 请 求 ,数据 以 对 话 的 方式 输入 ,计算 机 系统 便 提供 相应 的 数据 或 提示 信息 ,引导 操作 人 员 
逐步 完成 所 需 的 操作 ,直至 获得 最 终 处 理 结果 。 交 互 式 数据 处 理 灵 活 、 直 观 、 便 于 控制 。 采 
用 这 种 方式 ,存储 在 系统 中 的 数据 文件 能 够 被 及 时 处 理 修改 ,同时 处 理 结 果 可 以 立刻 被 
使 用 。 

2. 交互 式 数 据 分 析 处 理 系 统 


交互 式 数据 处 理 系 统 有 Berkeley 的 Spark 和 Google 的 Dremel 等 。Spark 是 一 个 基于 
内 存 计 算 的 可 扩展 的 开源 集群 计算 系统 。 针 对 MapReduce 的 不 足 , 即 大 量 的 网 络 传输 和 磁 
盘 I/O 使 得 效率 低 效 ,Spark 使 用 内 存 进 行 数据 计算 以 便 快 速 处 理 查询 实时 返回 分 析 结 果 。 
Spark 提供 比 Hadoop 更 高 层 的 API, 同 样 的 算法 在 Spark 中 的 运行 速度 比 Hadoop 快 10 一 
100 倍 。Spark 在 技术 层面 兼容 Hadoop 存储 层 API, 可 访问 HDFS .HBASE SequenceFile 
等 。Spark-Shell 可 以 开启 交互 式 Spark 命令 环境 ,能 够 提供 交互 式 查 询 。 

关于 Spark 的 详细 介绍 见 本 书 第 9 章 。 


3.3.4 图 数据 及 处 理 系 统 


1. 图 数据 





图 数据 是 通过 图 形 表达 出 来 的 信息 含义 。 图 自身 的 结构 特点 可 以 很 好 地 表示 事物 之 间 
的 关系 。 图 数据 中 主要 包括 图 中 的 结 点 以 及 连接 结 点 的 边 。 在 图 中 , 顶点 和 边 实 例 化 构成 
各 种 类 型 的 图 ,如 标签 图 .属性 图 .语义 图 以 及 特征 图 等 ( 见 图 3-18 一 图 3-21) 。 大 图 数据 是 














KAHE 技术 概论 
无 法 使 用 单 台 机 器 进行 处 理 的 ,但 如 果 对 大 图 数据 进行 并 行 处 理 , 对 于 每 一 个 顶点 之 间 都 连 
通 的 图 来 讲 , 难 以 分 割 成 若干 完全 独立 的 子 图 进行 独立 的 并 行 处 理 , 即 使 可 以 分 割 ,也 会 面 


临 并 行 机 器 的 协同 处 理 以 及 将 最 后 的 处 理 结果 进行 合并 等 一 系列 问题 。 这 需要 图 数据 处 理 
系统 选取 合适 的 图 分 割 以 及 图 计算 模型 来 满足 要 求 。 
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图 3-20 自然 特征 图 图 3-21 人 脑 语义 地 图 








2. 图 数据 分 析 处 理 系统 


图 数据 处 理 有 一 些 典型 的 系统 ,如 Google 的 Pregel 系统 、Neo4j 系统 和 Trinity 系统 。 
Trinity 是 Microsoft 推出 的 一 款 建立 在 分 布 式 云 存储 上 的 计算 平台 ,可 以 提供 高 度 并 行 查 
询 处 理 .事务 记录 一致 性 控制 等 功能 。Trinity 主要 使 用 内 存 存储 ,磁盘 仅 作为 备份 存储 。 

Trinity 有 以 下 特点 。 

(1) 数据 模型 是 超 图 : 超 图 中 ,一 条 边 可 以 连接 任意 数目 的 图 顶点 ,此 模型 中 图 的 边 称 
为 超 边 , 超 图 比 简单 图 的 适用 性 更 强 , 保 留 的 信息 更 多 ; 

(2) 并 发 性 : Trinity 可 以 配置 在 一 台 或 上 百 台 计算 机 上 ,Trinity 提供 了 一 个 图 分 割 
机 制 ; 

(3) 具有 数据 库 的 一 些 特点 : Trinity 是 一 个 基于 内 存 的 图 数据 库 , 有 丰富 的 数据 库 
特点 ; 

(4) 支持 批 处 理 : Trinity 支持 大 型 在 线 查 询 和 离线 批 处 理 , 并 且 支 持 同 步 和 不 同步 批 
处 理 计 算 。 

总 之 , 面 对 大 数据 ,各 种 处 理 系统 层出不穷 .各 有 特色 。 总 体 来 说 ,数据 处 理 平台 多 样 
化 ,国内 外 的 互联 网 企业 都 在 基于 开源 性 面向 典型 应 用 的 专用 化 系统 进行 开发 。 
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3.4 大 数据 分 析 的 应 用 


大 数据 分 析 在 各 个 领域 都 有 广泛 的 应 用 ,以 下 以 互联 网 和 医疗 领域 为 例 , 介 绍 大 数据 的 
应 用 。 


1. 互联 网 领域 大 数据 分 析 的 典型 应 用 


(1) 用 户 行为 数据 分 析 。 如 精准 广告 投放 ,内 容 推 
荐 ,行为 习惯 和 喜好 分 析 \ 产 品 优 化 等 ,如 图 3-22 和 
图 3-23 所 示 。 

(2) 用 户 消费 数据 分 析 。 如 精准 营销 、 信 用 记录 分 图 3-22 利用 微 信 做 精准 广告 投放 
析 、 活 动 促销 、 理 财 等 。 

G) 用 户 地 理 位 置 数据 分 析 。 如 O20 推广 .商家 推荐 .交友 推荐 等 。 

(4) 互联 网 金融 数据 分 析 。 如 P2P、 小 额 贷款 .支付 、 信 用、 供应 链 金 融 等 。 

(5) 用 户 社交 等 数据 分 析 。 如 趋势 分 析 ,流行 元 素 分 析 、 受 欢迎 程度 分 析 、 与 论 监控 分 
析 、 社 会 问题 分 析 等 。 


分 析 区 域 人 群 构成 O SMIRE — 
主力 消费 人 群 特征 
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定 家 庭 消费 ; 家 庭 消费 决策 者 - 
确定 家 庭 消费 决策 者 pnnana 





图 3-23 用 户 购买 习惯 大 数据 分 析 


2. 在 医疗 领域 大 数据 分 析 的 典型 应 用 


(1) 公共 卫生 : 分 析 疾 病 模式 和 追踪 疾病 暴发 及 传播 方式 途径 ,提高 公共 卫生 监测 和 
反应 速度 。 更 快 更 准确 地 研制 靶 向 疫苗 ,例如 开发 每 年 的 流感 疫苗 。 

(2) 循 证 医学 : 结合 和 分 析 各 种 结构 化 和 非 结构 化 数据 ,电子 病历 .财务 和 运营 数据 、 
临床 资料 和 基因 组 数据 来 寻找 与 病症 信息 相 匹 配 的 治疗 ,预测 疾病 的 高 危 患 者 或 提供 更 多 
高 效 的 医疗 服务 。 

(3) 基因 组 分 析 : 更 有 效 和 低 成 本 地 执行 基因 测序 ,使 基因 组 分 析 成 为 正规 医疗 保健 
决策 的 必要 信息 并 纳入 病人 病历 记录 。 

(4) 设备 远程 监控 : 从 住院 和 家 庭 医 疗 装置 采集 和 分 析 实 时 大 容量 地 快速 移动 数据 ， 
用 于 安全 监控 和 不 良 反 应 的 预测 。 

(5) 病人 资料 分 析 : 全 面 分 析 病 人 个 人 信息 (例如 分 割 和 预测 模型 ), 从 中 找到 能 从 特 
定 健保 措施 中 获 益 的 个 人 ,例如 , 某 些 疾病 的 高 危 患者 (如 糖尿 病 ) 可 以 从 预防 措施 中 受益 。 


A < ss 


这 些 人 如 果 拥有 足够 的 时 间 提 前 有 针对 性 地 预防 病情 ,那么 大 多 数 的 危害 可 以 降 到 最 低 程 
度 ,甚至 可 以 完全 消除 。 

(6) 预测 疾病 或 人 群 的 某 些 未 来 趋势 : 如 预测 特定 病人 的 住院 时 间 , 哪 些 病 人 会 选择 
非 急需 性 手术 ,哪些 病人 不 会 从 手术 治疗 中 受益 ,哪些 病人 会 更 容易 出 现 并 发 症 等 。 资 料 显 
示 , 单 单 就 美国 而 言 ,医疗 大 数据 的 利用 可 以 为 医疗 开支 节省 出 3000 亿美 元 每 年 。 

(7) 临床 操作 : 相对 更 有 效 的 医学 研究 ,发 展 出 临床 相关 性 更 强 和 成 本 效益 更 高 的 方 
法 用 来 诊断 和 治疗 病人 。 

(8) 药品 和 医疗 器 械 方面 : 建立 更 低 磨 损 度 ,更 精简 .更 快速 ,更 有 针对 性 的 研发 产 
品 线 。 

(9) 临床 试验 : 在 产品 进入 市 场 前 发 现 病人 对 药物 医疗 方法 的 不 良 反应 。 





3. 应 用 案例 


1) 互联 网 大 数据 分 析 案 例 

案例 背景 : 

对 某 互联 网 公司 的 用 户 进行 行为 分 析 , 实 时 分 析 大 量 的 数据 。 

问题 解决 步 又 : 

(1) 首先 提出 了 测试 方案 : 

90 天 细节 数据 约 50 亿 条 导入 ,并 制定 分 析 策 略 。 

(2) 简单 测试 : 

先 通过 5 £ PC Server, FA 1 一 2 天 的 数据 ,演示 如 何 ETL, 如 何 做 简单 应 用 。 

(3) 实际 数据 导入 : 

按照 提出 的 测试 方案 开始 导入 90 天 的 数据 ,在 导入 数据 中 解决 如 下 问题 : 解决 步 长 问 
题 ,有 效 访问 次 数 ,在 几 个 分 组 内 ,停留 时 间 大 于 30 分 钟 ; 解决 HBase 数据 和 SQL Server 
数据 的 关联 问题 ; 解决 分 组 太 多 、 跨 度 过 长 的 问题 。 

(4) 数据 源 及 数据 特征 分 析 : 

90 天 的 数据 ,Web 数据 7 亿 ,App 数据 37 亿 , 总 估计 50 亿 。 

每 个 表 有 20 多 个 字段, 一 半 字 符 串 类 型 ,一 半数 值 类 型 ,一 行 数据 的 大 小 估计 2000B。 

每 天 5000 万 行 , 原 始 数据 每 天 100GB,100 天 是 10TB 的 数据 。 

抽取 样本 数据 100 万 行 ,导入 数据 集 市 ,数据 量 为 180MB。 

50 亿 数 据 若 全 部 导入 需要 900GB 的 空间 ,压缩 比 为 11 : 1。 

假设 同时 装载 到 内 存 中 分 析 的 量 为 1/3, 那 总 共 需 要 300GB 的 内 存 。 

(5) 设计 方案 : 

总 共 配 制 需要 300GB 的 内 存 。 

硬件 : 5 台 PC Server, 每 台 内 存 64GB、4CPU 4Core。 

机 器 角色 : 一 台 Naming、Map, 一 台 Client、Reduce、Map, 其 余 三 台 都 是 Map. 

(6) ETL 过 程 (将 数据 从 来 源 端 经 过 抽取 、 转 换 、 加 载 至 目的 端的 过 程 ) : 

历史 数据 集中 导 : 每 天 的 细节 数据 和 SQL Server 关联 后 ,打上 标签 ,再 导入 集 市 。 


增 量 数据 自动 导 : 每 天 导入 数据 ,生成 汇总 数据 。 

维度 数据 被 缓存 : 细节 数据 按照 日 期 打上 标签 , 跟 缓存 的 维度 数据 关联 后 人 集 市 ; 根 
据 系统 配置 调 优 日 期 标签 来 删除 数据 ; 清洗 出 有 意义 的 字段 。 

(7) 系统 配置 

内 部 管理 内 存 参数 等 配置 。 

(8) 互联 网 用 户 行为 分 析 : 

浏览 器 分 析 : 运行 时 间 ,. 有 效 时 间 ,启动 次 数 , 覆 盖 人 数 等 。 

主流 网 络 电视 : 浏览 总 时 长 ,有 效 流量 时 长 ,浏览 次 (PV) 数 覆盖 占有 率 等 。 

主流 电 商 网 站 : 在 线 总 时 长 ,有 效 在 线 总 时 长 ,独立 访问 量 ,网 站 覆盖 量 等 。 

主流 财经 网 站 : 在 线 总 时 长 ,有效 总 浏览 时 长 ,独立 访问 量 , 总 覆盖 量 等 。 

(9) 案例 测试 结果 : 

90 天 数据 , 近 10TB 的 原始 数据 ,大 部 分 的 查询 都 是 秒 级 响应 。 

实现 了 HBase 数据 与 SQL Server 中 维度 表 关 联 分 析 的 需求 。 

预算 有 限 ,投入 并 不 大 ,又 能 解决 Hive 不 够 实时 的 问题 。 

性 能 卓越 的 交互 式 BI 呈现 ,非常 适合 分 析 师 使 用 。 

2) 百度 流行 病 预测 

(1) 问题 提出 

利用 大 数据 在 医疗 服务 领域 开展 疾病 预测 研究 ,借助 最 新 大 数据 技术 ,呈现 身边 的 疾病 
信息 。 人 们 通过 这 个 疾病 预测 系统 ,不 仅 可 以 了 解 当前 流行 病 的 态势 ,还 可 以 看 到 未 来 7 天 
的 变化 趋势 ,提前 做 好 预防 措施 。 

(2) 数据 来 源 与 分 析 

流行 病 的 发 生 和 传播 有 一 定 的 规律 性 ,与 气温 变化 、 环 境 指数 .人 口 流 动 等 因素 密切 相 
关 。 每 天 网 民 在 百度 搜索 大 量 流行 病 相 关 信息 ,汇聚 起 来 就 有 了 统计 规律 ,经 过 一 段 时 间 的 
数据 积累 ,可 以 形成 一 个 个 预测 模型 ,预测 未 来 疾病 的 活跃 指数 。 

(3) 预测 应 用 

预测 病 种 是 流感 .肝炎 、 肺 结核 .高 血压 、 糖 尿 病 、 心 脏 病 、 艾 滋 病 等 13 种 疾病 ,覆盖 331 
个 地 市 2870 个 区 县 ,免费 提供 疾病 预测 的 服务 。 

(4) 流感 预测 

将 数据 (如 搜索 、 微 博 、 贴 吧 ) 与 中 国 疾 控 中 心 (CDC) 提 供 的 流感 监测 数据 结合 建立 预测 
模型 。 对 比 CDC 提供 的 流感 阳性 率 (2014. 5. 25 值 ), 绝 对 误差 在 1% 以 内 的 城市 占 62%， 
在 5% 以 内 的 城市 占 89%。 而 其 他 几 种 疾病 依靠 百度 搜 自 身 数据 ,用 无 监督 学 习 模 型 来 预 
测 疾病 热 搜 动态 的 时 空 变 化 。 如 图 3-24 所 示 是 过 去 一 个 时 间 点 “流感 "全 国 发 病 预 测 情 况 ， 
从 图 中 可 以 观察 到 广州 珠海、 重庆 、 成 都 ,深圳 等 地 流感 发 病 较为 活跃 。 

总 之 ,大 数据 分 析 为 处 理 结构 化 与 非 结构 化 的 数据 提供 了 新 的 途径 ,这 些 分 析 在 具 
体 应 用 上 还 有 很 长 的 路 要 走 .在 未 来 的 日 子 里 将 会 看 到 更 多 的 产品 和 应 用 系统 在 生活 中 
出 现 。 
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图 3-24 “流感 "全 国 发 病 预测 情况 


本 章 小 结 


我 们 已 经 走 进 了 大 数据 时 代 , 挖 掘 隐 含 在 大 数据 中 的 规律 和 关系 是 人 们 的 渴望 。 
大 数据 自身 隐藏 着 的 价值 ,在 此 领域 开展 相关 问题 的 分 析 研 究 , 必 将 产生 深远 的 社会 意义 和 
效益 ,对 未 来 社会 的 发 展 也 将 产生 重大 的 推动 作用 。 因 此 ,通过 本 章 内 容 的 学 习 , 学 生 应 该 
学 会 大 数据 分 析 的 方法 ,掌握 大 数据 分 析 的 一 般 流 程 与 主要 技术 ,为 大 数据 的 分 析 应 用 贡献 
力量 。 

【注释 】 

1. 机 器 学 习 (Machine Learning, ML); 是 一 门 多 领域 交叉 学 科 , 专 门 研究 计算 机 怎样 模拟 或 实现 人 类 
的 学 习 行 为 ,以 获取 新 的 知识 或 技能 ,重新 组 织 已 有 的 知识 结构 使 之 不 断 改善 自身 的 性 能 。 

2. 分 布 式 计算 : 是 一 种 计算 方法 ,和 集中 式 计算 是 相对 的 。 随 着 计算 技术 的 发 展 ,有 些 应 用 需要 非常 
巨大 的 计算 能 力 才能 完成 ,如 果 采 用 集中 式 计算 ,需要 耗费 相当 长 的 时 间 来 完成 。 分 布 式 计 算 将 该 应 用 分 
解 成 许多 小 的 部 分 ,分 配给 多 台 计 算 机 进行 处 理 。 这 样 可 以 节约 整体 计算 时 间 , 大 大 提高 计算 效率 。 

3. 人 工 智能 (Artificial Intelligence, AD: 是 研究 .开发 用 于 模拟 、 延 伸 和 扩展 人 的 智能 的 理论 ,方法 、 
技术 及 应 用 系统 的 一 门 新 的 技术 科学 。 人 工 智 能 是 计算 机 科学 的 一 个 分 支 ,企图 了 解 智 能 的 实质 ,并 生产 
出 一 种 新 的 能 以 与 人 类 智能 相似 的 方式 做 出 反应 的 智能 机 器 ,该 领域 的 研究 包括 机 器 人 、 语 言 识别 .图 像 
识别 .自然 语言 处 理 和 专家 系统 等 。 

4. 推荐 算法 : 是 利用 用 户 的 一 些 行为 ,通过 一 些 数学 算法 ,推测 出 用 户 可 能 喜欢 的 东西 。 

5. 商务 智能 (Business Intelligence, BI; 是 一 套 完整 的 解决 方案 ,用 来 将 企业 中 现 有 的 数据 进行 有 效 
的 整合 ,快速 准确 地 提供 报表 并 提出 决策 依据 ,帮助 企业 做 出 明智 的 业务 经 营 决 策 。 

6. 单线 程 : 在 程序 执行 时 ,所 走 的 程序 路 径 按照 连续 顺序 排 下 来 ,前 面 的 必须 处 理 好 ,后 面 的 才 会 





执行 。 
7. ZeroMQ: 是 一 个 消息 处 理 队列 库 , 可 在 多 个 线程 .内 核 和 主机 盒 之 间 弹 性 伸缩 。ZMQ 的 明确 目标 
是 “成 为 标准 网 络 协 议 栈 的 一 部 分 ,之 后 进入 Linux 内 核 ”。 

8. ETL(Extract-Transform-Load) : 用 来 描述 将 数据 从 来 源 端 经 过 抽取 (Extract) .转换 (Transform) 、 
加 载 (Load) 至 目的 端的 过 程 。ETL 一 词 较 常用 在 数据 仓库 ,但 其 对 象 并 不 限于 数据 仓库 。 

9. O2O(Online To Offline, 在 线 离线 / 线 上 到 线 下 ): 是 指 将 线 下 的 商务 机 会 与 互联 网 结合 ,让 互联 网 
成 为 线 下 交易 的 平台 ,这 个 概念 最 早 来 源 于 美国 。O20 的 概念 非常 广泛 , 既 可 涉及 到 线 上 ,又 可 涉及 到 线 


<<< 


下 ,可 以 统称 为 020。 

10. P2P: 可 以 理解 为 对 等 网 络 (Peer-to-Peer Networking) 或 对 等 计算 (Peer-to-Peer Computing), Bd 
络 的 参与 者 共享 他 们 所 拥有 的 一 部 分 硬件 资源 (处 理 能 力 ,存储 能 力 、 网 络 连 接 能 力 、 打 印 机 等 ), 此 网 络 中 
的 参与 者 既是 资源 、 服 务 和 内 容 的 提供 者 (Server) ,又 是 获取 者 (Client) 。 

11. 超 图 : 是 北京 超 图 软件 股份 有 限 公 司 (SuperMap Software Co. Ltd. 简称 “ 超 图 软件 ”的 品牌 ), 中 
国 科学 院 旗下 亚洲 著名 的 地 理 信息 系统 (GIS) 软 件 企 业 。 
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内 容 与 要 求 


本 章 主要 介绍 大 数据 可 视 化 的 概念 、 大 数据 可 视 化 过 程 和 大 数据 可 视 化 工具 。 

大 数据 可 视 化 概述 中 要 了 解 科学 可 视 化 和 信息 可 视 化 的 定义 ,掌握 大 数据 可 视 化 和 
数据 可 视 化 的 概念 ,掌握 大 数据 可 视 化 的 过 程 。 

大 数据 可 视 化 工具 中 要 了 解 传统 数据 可 视 化 工具 与 大 数据 可 视 化 工具 的 区 别 , 了 解 
常见 大 数据 可 视 化 工具 ,掌握 Tableau 工具 的 使 用 。 








本 章 的 重点 是 大 数据 可 视 化 的 概念 ,过程 。 本 章 的 难点 是 使 用 Tableau 设计 可 视 化 
产品 。 














大 数据 时 代 不 仅 处 理 着 海量 的 数据 ,同时 也 加 工 、 传 播 和 分 享 着 它们 ,而 大 数据 可 视 化 
是 正确 理解 数据 信息 的 最 好 方法 ,甚至 是 唯一 方式 。 大 数据 可 视 化 让 数据 变 得 更 加 可 信 , 它 
可 以 被 看 作 是 一 种 媒介 , 像 文字 一 样 ,为 人 们 讲述 着 各 种 各 样 的 故事 。 


4.1 大 数据 可 视 化 概述 


随 着 大 数据 可 视 化 平台 的 拓展 、 应 用 领域 的 增加 ,表现 形式 不 断 变化 ,而 且 增 加 了 诸如 
实时 动态 效果 ,用 户 交互 使 用 等 功能 。 

















#4= 大 数据 可 视 化 . 


4.1.1 大 数据 可 视 化 与 数据 可 视 化 


数据 可 视 化 是 关于 数据 的 视觉 表现 形式 的 科学 技术 研究 。 其 中 ,这 种 数据 的 视觉 表 
现形 式 被 定义 为 一 种 以 某 种 概要 形式 抽取 出 来 的 信息 ,包括 相应 信息 单位 的 各 种 属性 和 

常见 的 柱状 图 、 饼 图 、 直 方 图 、 散 点 图 等 是 最 原始 的 统计 图 表 , 也 是 数据 可 视 化 最 基 
础 、 最 常见 的 应 用 。 例 如 图 4-1 所 示 为 数据 可 视 化 的 常见 表现 形式 , 其 中 就 包括 了 柱状 
图 、 饼 图 等 多 种 统计 图 表 。 可 以 看 出 ,使 用 它们 可 以 快速 认识 数据 ,同时 传达 了 数据 中 的 
信息 。 











图 4-1 数据 可 视 化 


因为 这 些 原始 统计 图 表 只 能 呈现 基本 的 信息 ,所 以 当面 对 复杂 或 大 规模 结构 化 、 半 结构 
化 和 非 结构 化 数据 时 ,数据 可 视 化 的 流程 要 复杂 很 多 ,具体 实现 的 流程 如 图 4-2 所 示 。 








数据 处 理 设计 表现 形式 创建 可 视 化 算法 及 技术 实现 手段 


图 4-2 大 数据 可 视 化 实现 的 流程 


其 具体 描述 是 : 首先 要 经 历 包括 数据 采集 、 数 据 分 析 、 数 据 管理 ,数据 挖 所 在 内 的 一 系 
列 复杂 数据 处 理 ; 然后 由 设计 师 设计 一 种 表现 形式 ,如 立体 的 、 二 维 的 .动态 的 、 实 时 的 或 者 
交互 的 ; 最 终 由 工程 师 创 建 对 应 的 可 视 化 算法 及 技术 实现 手段 .包括 建 模 方法 、 处 理 大 规模 
数据 的 体系 架构 、 交 互 技术 等 。 所 以 一 个 大 数据 可 视 化 作品 或 项 目的 创建 ,需要 多 领域 专业 
人 士 的 协同 工作 才能 取得 成 功 。 

所 以 ,大 数据 可 视 化 可 以 理解 为 数据 量 更 加 庞大 .结构 更 加 复杂 的 数据 可 视 化 。 例 如 
图 4-3 展示 的 是 非洲 大 型 哺乳 动物 种 群 的 稳定 性 和 濒危 状况 。 图 中 面 朝 左边 的 动物 数量 
正在 不 断 减少 ,而 面 朝 右边 的 动物 状况 则 比较 稳定 ,其 中 有 些 动物 的 数量 还 有 所 增加 。 
所 以 ,在 数据 急剧 增加 的 背景 下 .大 数据 的 可 视 化 显得 尤为 重要 。 

综合 以 上 描述 , 现 将 大 数据 可 视 化 与 数据 可 视 化 做 以 下 比较 ,如 表 4-1 所 示 。 
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图 4-3 非洲 大 型 哺乳 动物 种 群 的 稳定 性 和 濒危 状况 
表 4-1 大 数据 可 视 化 与 数据 可 视 化 的 比较 




















大 数据 可 视 化 数据 可 视 化 
数据 类 型 结构 化 、 半 结构 化 , 非 结构 化 结构 化 
表现 形式 多 种 形式 主要 是 统计 图 表 
实现 手段 各 种 技术 方法 、 工 具 各 种 技术 方法 .工具 
结果 发 现 数据 中 蕴含 的 规律 特征 注重 数据 及 其 结构 关系 


4.1.2 大 数据 可 视 化 的 过 程 
大 数据 可 视 化 的 过 程 主要 有 以 下 9 个 方面 。 
1. 数据 的 可 视 化 


数据 可 视 化 的 核心 是 采用 可 视 化 元 素来 表达 原始 数据 ,例如 通常 柱状 图 利用 柱子 的 高 
度 反映 数据 的 差异 。 图 4-4 中 显示 的 是 中 国电 信和 区域 人 群 检测 系统 ,其 中 利用 柱状 图 显示 
年 龄 的 分 布 情况 ,利用 饼 图 显示 性 别 的 分 布 情况 。 


2. 指标 的 可 视 化 


在 可 视 化 的 过 程 中 ,采用 可 视 化 元 素 的 方式 将 指标 可 视 化 ,会 使 可 视 化 的 效果 增 彩 很 
多 .例如 对 QQ 群 大 数据 资料 进行 可 视 化 分 析 中 ,数据 用 各 种 图 形 的 方式 展示 。 图 4-5 中 显 
示 的 是 将 近 100GB 的 QQ 群 数据 ,通过 数据 可 视 化 ,可 以 把 数据 作为 点 和 线 连接 起 来 ,从 而 
更 加 直观 地 显示 出 来 从 而 进行 分 析 。 其 中 企鹅 图 标的 结 点 代表 QQ, 群 图 标的 结 点 代表 群 。 
每 条 线 代表 一 个 关系 ,一 个 QQ 可 以 加 入 六 个 群 ,一 个 群 也 可 以 有 N + QQ 加 入 。 线 的 颜 
色 的 代表 含义 为 : 黄色 为 群 主 ` 绿 色 为 群 管理 员 、 蓝 色 为 群 成 员 。 群 主 和 管理 员 的 关系 线 也 
比 普通 的 群 成 员 长 一 些 ,这 是 为 了 突出 群 内 的 重要 成 员 的 关系 。 
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图 4-4 区 域 人 群 检测 系统 
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3. 数据 关系 的 可 视 化 


在 数据 可 视 化 方式 、 指 标 可 视 化 方式 确立 以 后 .就 需要 进行 数据 关系 的 可 视 化 。 这 种 数 
据 关系 往往 也 是 可 视 化 数据 核心 表达 的 主题 宗旨 ,例如 研究 操作 系统 的 分 布 。 图 4-6 中 显 
示 的 是 将 Windows 比喻 成 太阳 系 .Windows XP, Window 7 等 比喻 成 太阳 系 中 的 行星 ,其 
他 系统 比喻 成 其 他 星系 的 操作 系统 分 布 图 。 





图 4-6 ”操作 系统 分 布 


4. 背景 数据 的 可 视 化 


很 多 时 候 , 光 有 原始 数据 是 不 够 的 ,因为 数据 没有 价值 ,信息 才 有 价值 。 例 如 设计 师 马 
特 ， 罗 宾 森 (Matt Robinson) 和 汤姆 。 维 格 勒 沃 斯 (Tom Wrigglesworth) 用 不 同 的 圆珠笔 
ampble" 这 个 单词 。 因 为 不 同 字体 使 用 墨水 量 不 同 , 所 以 每 支 笔 所 剩 的 墨水 也 不 
同 。 于 是 就 产生 了 这 幅 有 趣 的 图 (图 4-7) ,在 这 幅 图 中 不 再 需要 标注 坐标 系 ,因为 不 同 的 笔 
及 其 墨水 含量 已 经 包含 了 这 个 信息 。 
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图 47 马 特 * 罗 宾 森 和 汤姆 " 维 格 勒 沃 斯 的 字体 测量 ” 


#4= ”大 数据 可 视 化 


5. 转换 成 便于 接受 的 形式 


数据 可 视 化 的 功能 包括 数据 的 记录 、 传 递 和 沟通 ,之 前 的 操作 实现 了 记录 和 传递 ,但 是 
沟通 可 能 还 需要 优化 ,这 种 优化 就 包括 按照 人 的 接受 模式 .习惯 和 能 力 , 甚 至 还 需要 考虑 显 
示 设 备 的 能 力 ,进行 综合 改进 ,这 样 才能 更 好 地 达到 被 接受 的 效果 。 例 如 对 刷机 用 户 所 使 用 
系统 满意 度 的 调查 ,如 图 4-8 所 示 , 其 中 适当 增加 一 些 符号 可 能 更 容易 被 接受 。 


对 目前 所 使 用 系统 的 满意 度 





图 4-8 对 刷机 用 户 所 使 用 系统 满意 度 的 调查 


6. 聚焦 


所 谓 聚 焦 就 是 利用 一 些 可 视 化 手段 ,把 那些 需要 强化 的 小 部 分 数据 ,信息 ,按照 可 视 化 
的 标准 进行 再 次 处 理 。 

提 到 聚焦 就 必须 要 讲 讲 大 数据 。 因 为 是 大 数据 ,所 以 很 多 时 候 数据 、 信 息 、 符 号 对 于 接 
受 者 而 言 是 超 负 荷 的 ,可 能 就 分 辨 不 出 来 了 ,这 时 我 们 就 需要 在 原来 的 可 视 化 结果 基础 上 再 
进行 优化 。 例 如 百度 迁徙 中 筛选 最 热线 路 ,如 图 4-9 所 示 








图 4-9 ”百度 迁徙 的 最 热线 路 
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7. 集中 或 者 汇总 展示 


就 图 4-9 所 示 的 百度 迁徙 来 说 ,这 个 图 表 并 没有 完全 结束 ,还 有 很 大 的 空间 ,例如 点 击 
每 和 就 可 以 看 到 这 个 城市 具体 的 迁徙 状态 ,例如 图 4-10 中 显示 的 是 上 海 的 迁徙 状 
态 。 这 样 人 们 在 掌控 全 局 的 基础 上 ,很 容易 抓 住所 有 焦点 ,再 进行 逐一 处 理 。 





图 4-10 百度 迁徙 中 的 上 海 


8. 扫尾 的 处 理 


在 之 前 的 基础 上 ,我 们 还 可 以 进一步 修饰 。 这 些 修 饰 是 为 了 让 可 视 化 的 细节 更 为 精准 ， 
甚至 优美 ,比较 典型 的 工作 包括 设置 标题 ,表明 数据 来 源 ,对 过 长 的 柱子 进行 缩 略 处 理 ,进行 
表格 线 的 颜色 设置 .各 种 字体 、 图 素 粗 细 、 颜 色 设置 等 

图 4-11 显示 的 是 最 有 价值 的 运动 队 。 这 是 通过 县 加 数据 来 讲述 深层 故事 的 一 个 例子 。 
这 个 交互 由 Column Five 设计 ,从 福布斯 *2014 年 最 具 价值 的 运动 队 50 强 ” 名 单 得 到 的 启 
发 。 但 是 它 不 仅 将 列表 可 视 化 ,用 户 还 可 以 通过 它 看 到 每 支队 伍 参赛 的 时 间 以 及 夺 得 总 冠 
军 的 数量 ,这 为 各 队 的 历史 和 成 功 提供 了 更 全 面 的 看 法 








9. 完美 的 风格 化 


所 谓 风 格 化 就 是 标准 化 基础 上 的 特色 化 ,最 典型 的 例如 增加 企业 .个 人 的 LOGO, 让 人 
们 知道 这 个 可 视 化 产品 属于 哪个 企业 、 哪 个 人 。 而 真正 做 到 风格 化 ,还 是 有 很 多 不 同 的 操 
作 , 例 如 布局 .用 色 、 图 素 ,常用 的 图 表 、 信 息 图 形式 、 数 据 、 信 息 维度 控制 ,典型 的 图 标 ,其 至 
动画 的 时 间 、 过 渡 等 ,从 而 形成 让 接收 者 赏心悦目 ,直观 了 然 地 理解 .接受 的 网 络 。 图 4-12 
中 显示 的 是 “今年 发 生 了 哪些 新 闻 ”, 这 件 艺术 品 是 将 2014 年 Twitter 上 最 受 关注 的 新 闻 进 
行 可 视 化 ,其 中 展示 了 18 450 万 条 推 文 。 这 件 作 品 体现 了 最 好 的 数据 可 视 化 方式 ,就 是 用 
直观 和 美丽 的 方式 传达 信息 。 
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图 4-11 最 有 价值 的 运动 队 


@ THE YEAR IN NEWS 





What America talked about in 2014, as viewed through 184.5 million Twitter mentions. 





图 4-12 今年 发 生 了 哪些 新 闻 


4.2 大 数据 可 视 化 工具 


传统 的 数据 可 视 化 工具 仅仅 是 将 数据 加 以 组 合 ,通过 不 同 的 展现 方式 提供 给 用 户 , 用 于 
发 现 数据 之 间 的 关联 信息 。 随 着 云 和 大 数据 时 代 的 来 临 ,数据 可 视 化 产 








使 用 传统 的 数据 可 视 化 工具 来 对 数据 仓库 中 的 数据 进行 抽取 、 归 纳 并 简 
视 化 产品 必须 满足 互联 网 的 大 数据 需求 ,快速 地 收集 、 筛 选 .、 分 析 、 归 纳 、 
的 信息 ,并 根据 新 增 的 数据 进行 实时 更 新 。 因 此 ,在 大 数据 时 代 , 数 据 可 视 化 工具 必须 具有 


以 1 








下 特性。 


品 已 经 不 再 满足 于 
单 地 展现 。 数 据 可 
展现 决策 者 所 需要 








(1) 实时 性 : 数据 可 视 化 工具 必须 适应 大 数据 时 代数 据 量 的 爆炸 式 增长 需求 ,快速 收 


A 3146 Same 


集 分 析 数 据 并 对 数据 信息 进行 实时 更 新 。 

(2) 简单 操作 : 数据 可 视 化 工具 满足 快速 开发 .易于 操作 的 特性 ,能 满足 互联 网 时 代 信 
息 多 变 的 特点 。 

(3) 更 丰富 的 展现 : 数据 可 视 化 工具 需 具 有 更 丰富 的 展现 方式 ,能 充分 满足 数据 展现 

(4) 多 种 数据 集成 支持 方式 : 数据 的 来 源 不 仅仅 局 限于 数据 库 , 数 据 可 视 化 工具 将 支 
持 团 队 协 作 数 据 、 数 据 仓库 文本 等 多 种 方式 ,并 能 够 通过 互联 网 进行 展现 。 


4.2.1 常见 大 数据 可 视 化 工具 简介 


现在 已 经 出 现 了 很 多 大 数据 可 视 化 的 工具 ,从 最 简单 的 Excel 到 复杂 的 编程 工具 ,以 及 
基于 在 线 的 数据 可 视 化 工具 三 维 工具 、 地 图 绘制 工具 等 , 正 逐 步 改 变 着 人 们 对 大 数据 可 视 
化 的 认识 。 








1. 入 门 级 工具 
入 门 级 工具 是 最 简单 的 数据 可 视 化 工具 ,只 要 对 数据 进行 一 些 复 制 粘贴 ,直接 选择 需要 
的 图 形 类 型 ,然后 稍微 进行 调整 即 可 。 常 见 的 入 门 级 工具 如 表 4-2 所 示 。 
表 4-2 常见 入 门 级 工具 
r R f 点 





Excel 操作 简单 ,快速 生成 图 表 , 很 难 制作 出 能 符合 专业 出 版 物 和 网 站 需要 的 数据 图 





Microsoft Excel 的 云 版 本 ,增加 了 动态 .交互 式 图 表 , 支 持 的 操作 类 型 更 丰富 ,服务 
器 负载 过 大 时 运行 速度 变 得 缓慢 


Google Spreadsheets 





2. 在 线 工 具 


目前 ,很 多 网 站 都 提供 在 线 的 数据 可 视 化 工具 ,为 用 户 提供 在 线 的 数据 可 视 化 操作 。 常 
见 的 在 线 工 具 如 表 4-3 Ñ. 
表 4-3 常见 在 线 工 具 
































r x 特 点 
包含 大 量 图 表 类 型 ,内 置 了 动画 和 交互 控制 ,不 支持 JavaScript 的 设备 无 
Google Chart API 
法 使 用 
Flot 线 框图 表 库 , 开 源 的 JavaScript PE ,操作 简单 ,支持 多 种 浏览 器 
Raphaël 创建 图 表 和 图 形 的 JavaScript 库 
D3(Data Driven Documents) | JavaScript 库 ,提供 复杂 图 表 样式 
Visual. ly 提供 了 大 量 信息 图 模板 





3. 三 维 工 具 


数据 可 视 化 的 三 维 工具 ,可 以 设计 出 Web 交互 式 三 维 动画 的 产品 。 常 见 的 三 维 工 具 如 
R 4-4 所 示 。 
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<<< 
表 4-4 常见 三 维 工 具 
r B 特 点 
Three. js 开源 的 JavaScript 3D 引擎 , 低 复杂 、 轻 量 级 的 3D 库 
PhiloGL WebGL 开源 框架 ,强大 的 API 
4. 地 图 工具 


地 图 工具 是 一 种 非常 直观 的 数据 可 视 化 方式 ,绘制 此 类 数据 图 的 工具 也 有 很 多 。 常 见 
的 地 图 工具 如 表 4-5 所 示 。 
表 4-4 常见 地 图 工具 
基于 JavaScript 和 Flash 的 地 图 API, 提供 多 种 版 本 
Modest Maps 开源 项 目 , 最 小 地 图 库 ,Flash 和 ActionScript 的 区 块 拼接 地 图 函数 库 
Poly Maps 一 个 地 图 库 , 具 有 类 似 CSS 样式 表 的 选择 器 


OpenLayers 可 靠 性 最 高 的 地 图 库 
支持 HTML5 和 CSS3, 轻 松 使 用 OpenStreetMap 的 数据 
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Google Maps 




















Leaflet 


5. 进 阶 工具 
进 阶 工具 通常 提供 桌面 应 用 和 编程 环境 。 常 见 的 进 阶 工 具 如 表 4-6 所 示 。 
表 4-6 常见 进 阶 工具 











È 具 特 点 
a 轻 量 级 的 编程 环境 .制作 编译 成 Java 的 动画 和 交互 功能 的 图 形 ,桌面 应 用 ,几乎 可 
在 所 有 平台 上 运行 
Nodebos 开源 图 形 软件 ,支持 多 种 图 形 类 型 
6. 专家 级 工具 


如 果 要 进行 专业 的 数据 分 析 , 那 么 就 必须 使 用 专家 级 的 工具 。 常 见 的 专家 级 工具 如 


表 4-7 所 示 。 
R47 常见 专家 级 工具 

















工 R 特 点 

R 一 套 完整 的 数据 处 理 、 计 算 和 制图 软件 系统 ,非常 复杂 

Weka 基于 Java 环境 下 开源 的 机 器 学 习 及 数据 挖掘 软件 

Gephi 开源 的 工具 ,能 处 理 大 规模 数据 集 , 生 成 漂亮 的 可 视 化 图 形 ,能 对 数据 进行 清洗 和 
分 类 





4.2.2 Tableau 数据 可 视 化 入 门 
Tableau 是 一 款 功 能 非常 强大 的 可 视 化 数据 分 析 软 件 , 其 定位 在 数据 可 视 化 的 商务 智 


>> 大 数据 技术 概论 


能 展现 工具 ,可 以 用 来 实现 交互 的 可视化 的 分 析 和 仪表 盘 分 析 应 用 。 就 和 Tableau 这 个 词 
汇 的 原意 “画面 ”一样 , 它 带 给 用 户 美好 的 视觉 感官 。 

Tableau 的 特性 包括 : 

(1) 自助 式 BI( 商 业 智能 ),IT 人 员 提 供 底层 的 架构 ,业务 人 员 创 建 报表 和 仪表 盘 。 
Tableau 允许 操作 者 将 表格 中 的 数据 转变 成 各 种 可 视 化 的 图 形 、 强 交互 性 的 仪表 盘 并 共享 
给 企业 中 的 其 他 用 户 ; 

(2) 友好 的 数据 可 视 化 界面 .操作 简单 ,用 户 通过 简单 的 拖 忠 就 能 发 现 数 据 背 后 所 隐藏 
的 业务 问题 ; 

(3) 与 各 种 数据 源 之 间 实 现 无 颖 连接 ; 

(4) 内 置地 图 引擎 ; 

(5) 支持 两 种 数据 连接 模式 , Tableau 的 架构 提供 了 两 种 方式 访问 大 数据 量 , 即 内 存 计 
算 和 数据 库 直 连 ; 

(6) 灵活 的 部 署 , 适 用 于 各 种 企业 环境 。 

Tableau 拥有 一 万 多 个 客户 ,分 布 在 全 球 100 多 个 国家 和 地 区 ,应 用 领域 遍及 商务 服 
务 能源. 电信 人、 金融 服务 .互联 网 .生命 科学 、 医 疗 保健 、 制 造 业 、 媒 体 娱乐 .公共 部 门 、 教 育 、 
零售 等 各 个 行业 。 

Tableau 有 桌面 版 和 服务 器 版 。 桌 面 版 包括 个 人 版 开发 和 专业 版 开发 ,个 人 版 开发 只 
适用 于 连接 文本 类 型 的 数据 源 ; 专业 版 开发 可 以 连接 所 有 数据 源 。 服 务 器 版 可 以 将 桌面 版 
开发 的 文件 发 布 到 服务 器 上 ,共享 给 企业 中 其 他 的 用 户 访问 ; 能 够 方便 地 嵌入 到 任何 门户 
或 者 Web 页 面 中 。 

Tableau 支持 的 数据 接口 多 达 24 种 ,其 中 常见 的 数据 接口 如 表 4-8 所 示 。 

表 4-8 Tableau 的 常见 数据 接口 
































数据 接口 说 明 

Microsoft Excel 可 以 进行 各 种 数据 的 处 理 ,统计 分 析 和 辅助 决策 操作 的 软件 

Microsoft Access 微软 发 布 的 关系 数据 库 管理 系统 

Text files 文本 文件 

Aster Data nCluster 一 个 大 型 数据 管理 和 数据 分 析 的 新 平台 

Microsoft SQL Server | 关系 型 数据 库 管理 系统 ,使 用 集成 的 商业 智能 工具 提供 了 企业 级 的 数据 管理 

MySQL 关系 型 数据 库 管理 系统 ,在 Web 应 用 方面 表现 最 好 

Pe 关系 数据 库 管理 系统 ,系统 可 移植 性 好 、 使 用 方便 、 功 能 强 , 适 用 于 各 类 大 、 中 、 

I 小 微机 环境 

IBM DB2 关系 型 数据 库 管 理 系统 ,主要 应 用 于 大 型 应 用 系统 ,具有 较 好 的 可 伸缩 性 ,可 
支持 从 大 型 机 到 单 用 户 环境 ,应 用 于 所 有 常见 的 服务 器 操作 系统 平台 下 
基于 Hadoop 的 一 个 数据 仓库 工具 ,可 以 将 结构 化 的 数据 文件 映射 为 一 张 数 

Hadoop Hive 据 库 表 , 并 提供 简单 的 SQL 查询 功能 ,可 以 将 SQL 语句 转换 为 MapReduce 任 
务 运行 





下 面 将 介绍 Tableau 的 入 门 操作 ,使 用 软件 自 带 的 示例 数据 ,介绍 如 何 连接 数据 、 构 建 
视图 、 创 建 仪表 板 和 创建 故事 。 
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1. 连接 数据 

启动 Tableau 后 要 做 的 第 一 件 事 是 连接 数据 。 

1) 选择 数据 源 

在 Tableau 的 工作 界面 的 左 侧 显示 可 以 连接 的 数据 源 ,如 图 4-13 所 示 。 
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图 4-13 Tableau 的 工作 界面 


2) 打开 数据 文件 

这 里 以 Excel 文件 为 例 , 选 择 Tableau 自 带 的 文件 “超市 . xls”, 如 图 4-14 所 示 为 打开 文 
件 后 的 工作 界面 。 

3) 设置 连接 

超市 . xls 中 有 三 个 工作 表 , 将 工作 表 拖 至 连接 区 域 就 可 以 开始 分 析 数 据 了 。 例 如 将 
“订单 ”工作 表 拖 至 连接 区 域 .然后 单 击 工作 表 选 项 卡 开始 分 析 数 据 , 如 图 4-15 所 示 。 

2. 构建 视图 

连接 到 数据 源 之 后 ,字段 作为 维度 和 度量 显示 在 工作 簿 左 侧 的 数据 窗 格 中 ,将 字段 从 数 
据 窗 格 拖 放 到 功能 区 来 创建 视图 。 

1) 将 维度 拖 至 行 、 列 功能 区 

单 击 图 4-15 中 下 面 的 “工作 表 1” 切 换 到 数据 窗 格 。 例 如 将 窗 格 左 侧 "维度 "区域 里 的 
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图 4-14 打开 文件 “超市 . xls” 
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图 4-15 将 “订单 ”工作 表 拖 至 连接 区 域 


“地 区 ”和 "* 细 分 ? 拖 至 行 功能 区 “类 别 ? 拖 至 列 功能 区 ,如 图 4-16 所 示 。 
2) 将 度量 拖 至 “文本 ” 


例如 将 数据 窗 格 左 侧 " 度 量 " 区 域 里 的 “销售 额 * 拖 至 窗 格 “标记 ”中 的 “文本 ”标记 卡 上 ， 
如 图 4-17 所 示 。 


这 时 ,在 图 4-17 所 示 的 窗 格 的 中 间 区 域 , 数 据 的 交叉 表 视 图 就 呈现 出 来 了 。 
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图 4-16 数据 窗 格 
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图 4-17 “文本 ”标记 卡 


3) 显示 数据 
将 图 4-17“ 标 记 ” 卡 中 “总 计 ( 销 售 额 )” 拖 至 列 功能 区 ,数据 就 会 以 图 形 的 方式 显示 出 
来 ,如 图 4-18 所 示 。 
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图 4-18 显示 数据 


从 数据 窗 格 “ 维 度 " 区 域 中 将 * 地 区 ? 拖 至 “颜色 "标记 卡 上 ,不 同 地 区 的 数据 就 会 以 不 同 
的 颜色 显示 ,从 而 可 以 快速 挑 出 业绩 最 好 和 最 差 的 产品 类 别 、 地 区 和 客户 细 分 ,如 图 4-19 
所 示 。 
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图 4-19 使 用 颜色 显示 更 多 数据 
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当 鼠 标 在 图 形 上 移动 时 ,会 显示 与 之 对 应 的 相关 数据 ,如 
图 4-19 所 示 的 白色 浮动 框 。 

对 于 数据 的 显示 图 形 还 可 以 进行 修改 , 单 击 图 4-19 工具 栏 
右 侧 的 “智能 显示 ”按钮 ,打开 “智能 显示 ” 窗 格 ,如 图 4-20 所 示 。 
在 “智能 窗 格 ”" 中 几 是 变 亮 的 按钮 即 可 为 当前 数据 所 使 用 ,例如 
这 里 就 是 “文本 表 ”“ 压 力图 “突出 显示 表 ”“ 饼 图 "等 12 个 图 形 
可 以 使 用 。 
































3. 创建 仪表 板 AA 
当 对 数据 集 创建 了 多 个 视图 后 ,就 可 以 利用 这 些 视图 组 成 EE S. 
单个 仪表 板 。 
1) 新 建 仪表 板 opona 
单 击 图 4-21 下 方 的 * 新 建 仪表 板 * 按 钮 ,打开 仪表 板 。 然 后 
在 “仪表 板 " 的 "大 小 ”列表 中 适当 调整 大 小 。 图 4-20 “智能 显示 " 窗 格 
D 添加 视图 


将 仪表 板 中 显示 的 视图 依次 拖 入 编辑 视图 中 。 如 图 4-22 所 示 , 将 “销售 地 图 ” 放 在 上 
方 ,“ 销 售 客户 细 分 ”和 “销售 产 品 细 分 ”分 别 放 在 下 方 。 
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图 4-21 新 建 仪 表 板 


4. 创建 故事 


使 用 Tableau 故事 点 ,可 以 显示 事实 间 的 关联 ,提供 前 后 关系 ,以 及 演示 决策 与 结果 间 
的 关系 。 

单 击 “ 故 事 ” 一 “新 建 故 事 ”, 打 开 故 事 视图 。 从 “仪表 板 和 工作 表 ” 区 域 中 将 视图 或 仪表 
板 拖 至 中 间 区 域 ,如 图 4-23 所 示 。 
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图 4-22 添加 视图 

















图 4-23 ”创建 故事 点 


在 导航 器 中 单 击 故事 点 可 以 添加 标题 。 单 击 “ 新 空白 点 ”添加 空白 故事 点 ,继续 拖 入 视 
图 或 仪表 板 。 单 击 “复制 创建 当前 故事 点 的 副本 .然后 可 以 修改 该 副本 。 
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5. RAIE 


1) RATHER 

可 以 通过 “文件 "中 的 “保存 "或 者 “另存 为 "命令 来 完成 ,或 者 单 击 工 具 栏 中 的 “保存 ” 
按钮 。 

2) 发 布 工作 竹 

可 以 通过 “服务 器 >“ 发 布 工 作 德 " 来 实现 。 

Tableau 工作 短 的 发 布 方式 有 多 种 ,如 图 4-24 所 示 , 其 中 分 享 工 作 簿 最 有 效 的 方式 是 发 
布 到 Tableau Online 和 Tableau Server, Tableau 发 布 的 工作 簿 是 最 新 、 安 全 、 完 全 交互 式 
的 ,可 以 通过 浏览 器 或 移动 设备 观看 。 


Ways to Share 
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图 4-24 ”工作 短发 布 


本 章 小 结 


大 数据 可 视 化 是 一 个 如 新 的 领域 .对 于 可 视 化 研究 的 重点 在 于 仔细 研究 数据 , 讲 出 大 多 
数 人 从 不 知晓 但 却 渴望 听 到 的 好 故事 ,从 而 了 解 它们 背后 蕴含 的 信息 。 通 过 本 章 的 学 习 , 可 
以 对 大 数据 可 视 化 有 一 个 基本 的 了 解 .为 进一步 学 习 大 数据 可 视 化 打下 理论 基础 。 

【注释 】 

1. 推 文 : 就 是 应 用 推广 性 质 的 文章 , 非 硬性 的 ,而 是 在 含蓄 的 文字 中 ,向 读者 传达 了 要 推广 的 产品 、 
内 容 。 

2. WebGL: 一 种 3D 绘图 标准 。WebGL 技术 标准 免 去 了 开发 网 页 专用 泻 染 插件 的 麻烦 ,可 被 用 于 创 
建 具有 复杂 3D 结构 的 网 站 页 面 ,甚至 可 以 用 来 设计 3D 网 页 游戏 等 。 

3. API: 即 应 用 程序 编程 接口 (Application Programming Interface) ,是 一 些 预先 定义 的 函数 ,目的 是 
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提供 应 用 程序 给 开发 人 员 基 于 某 软件 或 硬件 得 以 访问 一 组 例 程 的 能 力 , 而 又 无 须 访问 源码 ,或 理解 内 部 工 
作 机 制 的 细节 。 

4. CSS; 层 盔 样式 表 是 一 种 用 来 表现 HTML( 标 准 通用 标记 语言 的 一 个 应 用 ) 或 XML( 标 准 通用 标记 
语言 的 一 个 子 集 ) 等 文件 样式 的 计算 机 语言 。CSS 目前 最 新 版 本 为 CSS3 ,是 真正 能 够 做 到 网 页 表现 与 内 
容 分 离 的 一 种 样式 设计 语言 。 

5. HTML5: 万 维 网 的 核心 语言 .标准 通用 标记 语言 下 的 一 个 应 用 超 文本 标记 语言 (HTML) 的 第 5 次 
重大 修改 。 

6. OpenStreetMap: 一 个 网 上 地 图 协作 计划 ,目标 是 创造 一 个 内 容 自 由 且 能 让 所 有 人 编辑 的 世界 地 
图 。 这 个 地 图 和 百度 百科 、 维 基 百 科 一 样 是 全 民 地 图 。 
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内 容 与 要 求 


本 章 主 要 介绍 了 Hadoop 的 应 用 现状 及 其 架构 。Hadoop 允许 用 户 在 集群 服务 器 上 
使 用 简单 的 编程 模型 对 大 数据 集 进行 分 布 式 处 理 。 

Hadoop 简介 中 介绍 了 Hadoop 的 起 源 及 功能 与 优势 ,要 求 了 解 Hadoop 优势 及 应 
用 现状 。 

Hadoop 的 架构 及 组 成 中 介绍 了 Hadoop 的 架构 ,要 求 了 解 其 主要 核心 模块 HDFS 
和 MapReduce, 并 了 解 其 他 模块 的 功能 。 

Hadoop 的 应 用 中 介绍 了 Hadoop 平台 的 搭建 ,并 冰 述 了 其 开发 方式 ,要 求 以 实例 分 
析 了 解 Hadoop 的 工作 原理 。 





重点 、 难 点 


本 章 的 重点 是 了 解 Hadoop 的 功能 与 特点 。 本 章 的 难点 是 了 解 各 个 Hadoop 核心 
模块 的 功能 。 


























用 户 使 用 Hadoop 开发 分 布 式 程序 ,可 以 在 不 了 解 分 布 式 底层 细节 的 情况 下 ,充分 和 
用 集群 的 作用 高 速 运算 和 存储 。 绝 大 多 数 从 事 大 数据 处 理 的 行业 和 公司 都 借助 Hadoop 
平台 进行 产品 开发 ,并 对 Hadoop 本 身 的 功能 进行 拓展 和 演化 , 极 大 地 丰富 了 Hadoop 的 
性 能 。 
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5.1 Hadoop 简介 


Hadoop 是 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 。Hadoop 是 以 分 布 式 
文件 系统 (Hadoop Distributed File System,HDFS) 和 MapReduce 等 模块 为 核心 ,为 用 户 提 
供 细 节 透 明 的 系统 底层 分 布 式 基础 架构 。 用 户 可 以 利用 Hadoop 轻松 地 组 织 计 算 机 资源 ， 
搭建 自己 的 分 布 式 计算 平台 ,并 且 可 以 充分 利用 集群 的 计算 和 存储 能 力 , 完 成 海量 数据 的 
处 理 。 


5.1.1 Hadoop 的 发 展 简 史 


1. Hadoop 的 起 源 


Hadoop 这 个 名 称 是 由 它 的 创始 人 Doug Cutting 命名 ,来 源 于 Doug Cutting 儿子 的 棕 
黄色 大 象 玩 具 , 它 的 发 音 是 [hadu: p]。Hadoop 的 图 标 如 
图 5-1 所 示 。 

Hadoop 起 源 于 2002 年 Doug Cutting 和 Mike Cafarella 开发 
的 ApacheNutch m H. Nutch 项 目 是 一 个 开源 的 网 络 搜索 引擎 ， 
Doug Cutting 主要 负责 开发 的 是 大 范围 文本 搜索 库 。 随 着 互联 网 
的 飞速 发 展 ,Nutch 项 目 组 意识 到 其 构架 无 法 扩展 到 拥有 数 十 亿 

图 5-1 Hadoop 图 标 ”网 页 的 网 络 ,随后 在 2003 年 和 2004 年 Google 先后 推出 了 两 个 支 

持 搜索 引擎 而 开发 的 软件 平台 。 这 两 个 平台 一 个 是 谷歌 文件 系统 

(Google File System, GFS) ,用 于 存储 不 同 设备 所 产生 的 海量 数据 ; 另 一 个 是 MapReduce, 
它 运行 在 GFS 之 上 ,负责 分 布 式 大 规模 数据 的 计算 。 基 于 这 两 个 平台 ,在 2006 年 初 ,Doug 
Cutting 和 Mike Cafarella 从 Nutch 项 目 转移 出 来 一 个 独立 的 模块 , 称 为 Hadoop, 

截至 2016 年 年 初 .Apache Hadoop 版 本 分 为 两 代 。 第 一 代 Hadoop 称 为 Hadoop 1. 0, 
第 二 代 Hadoop 称 为 Hadoop 2.0。 第 一 代 Hadoop 包含 三 个 版 本 ,分 别 是 0. 20. x,0. 21. x 
和 0. 22. x。 第 二 代 Hadoop 包含 两 个 版 本 ,分 别 是 0. 23. x 和 2. x。 其 中 ,第 一 代 Hadoop 
由 一 个 分 布 式 文件 系统 HDFS 和 一 个 离线 计算 框架 MapReduce 组 成 ; 第 二 代 Hadoop 则 
包含 一 个 支持 NameNode 横向 扩展 的 HDFS 一 个 资源 管理 系统 Yarn 和 一 个 运行 在 Yarn 
上 的 离线 计算 框架 MapReduce。 相 比 之 下 Hadoop 2. 0 功能 更 加 强大 、 扩 展 性 更 好 并 且 能 
够 支持 多 种 计算 框架 。 目 前 ,最 新 的 版 本 是 2016 年 年 初 发 布 的 Hadoop 2.7.2。Hadoop 的 
版 本 如 表 5-1 所 示 。 





表 5-1 Hadoop 的 版 本 
Hadoop 版 本 版 本 名 称 版 本 号 包含 内 容 
第 一 代 Hadoop 1.0 0.20. x,0. 21. x,0.22. x HDFS, MapReduce 




















第 二 代 Hadoop 2. 0 0.23. x,2. x HDFS、MapReduce、Yarn 等 





2. Hadoop 的 特点 


Hadoop 具有 可 扩展 、 低 成 本 、 高 效率 及 可 靠 性 等 特点 。Hadoop 可 以 高 效 地 存储 并 管 
理 海量 数据 ,同时 分 析 这 些 海量 数据 以 获取 更 多 有 价值 的 信息 。Hadoop 中 的 HDFS 可 以 
提高 读 写 速度 和 扩大 存储 容量 ,因为 HDFS 具有 优越 的 数据 管理 能 力 ,并 且 是 基于 Java if 
言 开发 的 ,具有 容错 性 高 的 特点 ,所 以 Hadoop 可 以 部 署 在 低廉 的 计算 机 集群 中 ,同时 不 限 
于 某 个 操作 系统 ; Hadoop 中 的 MapReduce 可 以 整合 分 布 式 文件 系统 上 的 数据 ,保证 高 速 
分 析 处 理 数据 ; 与 此 同时 还 采用 存储 宛 余 数据 来 保证 数据 的 安全 性 。MapReduce 具有 开源 

举例 来 说 ,早期 使 用 Hadoop 是 在 Internet 上 对 搜索 关键 字 进 行内 容 分 类 。 如 果 要 对 
一 个 10TB 的 巨型 文件 进行 文本 搜索 ,使 用 传统 的 系统 需要 耗费 很 长 的 时 间 。 但 是 Hadoop 
在 设计 时 就 考虑 到 这 些 技术 瓶颈 问题 ,采用 并 行 执行 机 制 ,因此 能 大 大 提高 效率 。 


5.1.2 Hadoop 应 用 现状 和 发 展 趋势 


Hadoop 因 其 在 大 数据 处 理 领 域 具有 广泛 的 实用 性 以 及 良好 的 容错 性 ,目前 已 经 取得 
了 非常 突出 的 成 绩 。Hadoop 的 应 用 获得 了 学 术 界 的 广泛 关注 和 研究 ,已 经 从 互联 网 领域 
向 电信 ,电子 商务 ,银行 .生物 制药 等 领域 拓展 。 在 短 短 的 几 年 中 , Hadoop 已 经 成 为 迄今 
止 最 为 成 功 、 使 用 最 广泛 的 大 数据 处 理 主流 技术 和 系统 平台 ,在 业界 和 各 个 行业 尤其 是 互联 
网 行业 获得 了 广泛 的 应 用 。 


1. 国外 Hadoop 的 应 用 现状 


1) Yahoo 

Yahoo 是 Hadoop 的 最 大 支持 者 , Yahoo 的 Hadoop 机 器 总 结 点 数目 超过 42 000 个 ,有 
超过 10 万 的 核心 CPU 在 运行 Hadoop。 最 大 的 一 个 单 Master 结 点 集群 有 4500 个 结 点 ,每 
个 结 点 配置 了 4 核 CPU .4X1TB 磁盘 。 总 的 集群 存储 容量 大 于 350PB, 每 月 提交 的 作业 数 
目 超过 1000 万 个 。 

2) Facebook 

Facebook 使 用 Hadoop 存储 内 部 日 志 与 多 维 数据 ,并 以 此 作为 报告 分析 和 机 器 学 习 
的 数据 源 。 目 前 Hadoop 集群 的 机 器 结 点 超过 1400 台 , 共 计 11 200 个 核心 CPU ,超过 
15PB 原始 存储 容量 ,每 个 商用 机 器 结 点 配置 了 8 核 CPU、12TB 数据 存储 ,主要 使 用 
StreamingAPI 和 JavaAPI 编程 接口 。Facebook 同时 在 Hadoop 基础 上 建立 了 一 个 名 为 
Hive 的 高 级 数据 仓库 框架 , Hive 已 经 正式 成 为 基于 Hadoop 的 Apache 一 级 项 目 。 此 外 ， 
还 开发 了 HDFS 上 的 FUSE 实现 。 

3) eBay 

单 集群 超过 532 结 点 集群 , 单 节 点 8 É CPU. 存储 容量 超过 5. 3PB, 大 量 使 用 
MapReduce 的 Java 接口 、Pig、Hive 来 处 理 大 规模 的 数据 ,还 使 用 HBase 进行 搜索 优化 和 
研究 。 

4) IBM 

IBM 蓝 云 也 利用 Hadoop 来 构建 云 基础 设施 。IBM 蓝 云 使 用 的 技术 包括 Xen 和 
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PowerVM 虚拟 化 的 Linux 操作 系统 映像 及 Hadoop 并 行 工作 量 调度 ,并 发 布 了 自己 的 
Hadoop 发 行 版 及 大 数据 解决 方案 。 

2. 国内 Hadoop 的 应 用 现状 

1) 百度 

百度 在 2006 年 就 开始 关注 Hadoop 并 开始 调研 和 使 用 ,其 总 的 集群 规模 达到 数 十 个 ， 
单 集群 超过 2800 台 机 器 结 点 , Hadoop 机 器 总 数 有 上 万 台 机 器 ,总 的 存储 容量 超过 100PB， 
已 经 使 用 的 超过 74PB, 每 天 提交 的 作业 数目 有 数 千 个 之 多 ,每 天 的 输入 数据 量 已 经 超过 
7500TB ,输出 超过 1700TB。 

2) 阿里 巴巴 

阿里 巴巴 的 Hadoop 集群 大 约 有 3200 台 服 务 器 ,大 约 30 000 物理 CPU 核心 ,总 内 存 
100TB, 总 的 存储 容量 超过 60PB, 每 天 的 作业 数目 超过 150 000 个 , Hivequery 查询 大 于 
6000 个 ,扫描 数据 量 约 为 7.5PB, 扫 描 文件 数 约 为 4 亿 , 存 储 利用 率 大 约 为 80% ,CPU 利用 
率 平均 为 65% ,峰值 可 以 达到 80%。 阿 里 巴巴 的 Hadoop 集群 拥有 150 个 用 户 组 .4500 个 
集群 用 户 , 为 淘宝 、 天 猫 一 淘 、 聚 划算 .CBU 支付 宝 提供 底层 的 基础 计算 和 存储 服务 。 

3) 腾讯 

腾讯 也 是 使 用 Hadoop 最 早 的 中 国 互联 网 公司 之 一 ,腾讯 的 Hadoop 集群 机 器 总 量 超 
过 5000 台 , 最 大 单 集群 约 为 2000 个 结 点 ,并 利用 Hadoop-Hive 构建 了 自己 的 数据 仓库 系 
Hi TDW, 同 时 还 开发 了 自己 的 TDW-IDE 基础 开发 环境 。 腾 讯 的 Hadoop 为 腾讯 各 个 产品 
线 提供 基础 云 计算 和 云 存储 服务 。 

4) 京东 

京东 从 2013 年 起 ,根据 自身 业务 高 速 发 展 的 需求 ,自主 研发 了 京东 HadoopNameNode 
Cluster 解决 方案 。 该 方案 主要 为 了 解决 两 个 瓶颈 问题 : 一 个 是 随 着 存储 文件 增加 ,机 器 的 
内 存 会 逐渐 增加 ,已 经 达到 了 内 存 的 瓶颈 另 一 个 是 随 着 集群 规模 的 扩大 ,要 求 快速 响应 客 
户 端的 请 求 , 原 有 的 系统 的 性 能 出 现 了 瓶颈 。 该 方案 以 ClouderaCDH3 为 基础 ,并 在 其 上 进 
行 了 大 量 的 改造 和 自主 研发 。 目 前 ,已 经 通过 共享 存储 设备 ,实现 主 从 结 点 的 元 数据 同步 及 
NameNode 的 自动 切换 功能 。 客 户 端 . 主 从 结 点 .数据 结 点 均 通 过 Zookeeper 判断 主 结 点 信 
息 ,通过 心跳 判断 NameNode 健康 状态 。 


3. Hadoop 的 发 展 趋势 


随 着 互联 网 的 发 展 , 新 的 业务 模式 还 将 不 断 涌现 。 在 以 后 相当 长 一 段 时 间 内 , Hadoop 
系统 将 继续 保持 其 在 大 数据 处 理 领 域 的 主流 技术 和 平台 的 地 位 ,同时 其 他 种 种 新 的 系统 也 
将 逐步 与 Hadoop 系统 相互 融合 和 共存 。 

从 数据 存储 的 角度 看 ,前 景 是 乐观 的 。 用 HDFS 进行 海量 文件 的 存储 ,具有 很 高 的 稳 
定性 。 在 Hadoop 生态 系统 中 ,使 用 HBase 进行 结构 化 数据 存储 ,其 适用 范围 广 、 可 扩展 性 
强 、 技 术 比 较 成 熟 , 在 未 来 的 发 展 中 占有 稳定 的 一 席 之 地 。 

从 数据 处 理 的 角度 看 ,存在 一 定 问题 。MapReduce 目前 存在 问题 的 本 质 原因 是 其 擅长 
处 理 静态 数据 ,处 理 海量 动态 数据 时 必 将 造成 高 延迟 。 由 于 MapReduce 的 模型 比较 简单 ， 
造成 后 期 编程 十 分 困难 ,一 个 简单 的 计数 程序 也 需要 编写 很 多 代码 。 相 比 之 下 ,Spark 的 简 
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单 高 效能 更 好 地 适用 于 数据 挖掘 与 机 器 学 习 等 需要 迭代 的 MapReduce 算法 。 有 关 Spark 
的 介绍 详 见 第 9 章 。 

Hadoop 作为 大 数据 的 平台 和 生态 系统 ,已 经 步 人 稳步 理性 增长 的 阶段 。 未 来 ,和 其 他 
技术 一 样 ,面临 着 自身 新 陈 代谢 和 周围 新 技术 的 挑战 。 期 待 未 来 Hadoop 跟 上 时 代 的 发 展 ， 
不 断 更 新 改进 相关 技术 ,成 为 处 理 海量 数据 的 基础 平台 。 


5.2 Hadoop 的 架构 与 组 成 


Hadoop 的 核心 组 成 部 分 是 HDFS、MapReduce 以 及 Common, 其 中 HDFS 提供 了 海量 
数据 的 存储 ,MapReduce 提供 了 对 数据 的 计算 ,Common 为 其 他 模块 提供 了 一 系列 文件 系 
统 和 文件 包 。 但 与 Hadoop 相关 的 Yarn, Hive, HBase, Avro, Chukwa 等 模块 也 是 不 可 或 缺 
的 ,它们 可 以 提供 互补 性 服务 或 者 在 核心 层 上 提供 更 高 层 的 服务 。 


5.2.1 Hadoop 架构 


Hadoop 分 布 式 系统 基础 框架 具有 创造 性 和 极 大 的 扩展 性 ,用 户 可 以 在 不 了 解 分 布 式 
底层 细节 的 情况 下 开发 分 布 式 程序 ,充分 利用 集群 的 威力 高 速 运算 和 存储 。 简 单 来 说 ， 
Hadoop 是 一 个 可 以 更 容易 开发 和 运行 处 理 大 规模 数据 的 软件 平台 。 

Hadoop 的 主要 组 成 部 分 架构 如 图 5-2 所 示 。Hadoop 的 核心 模块 包含 HDFS、 
MapReduce 和 Common。HDFS 是 分 布 式 文件 系统 ; MapReduce 提供 了 分 布 式 计 算 编 程 
框架 ; Common 是 Hadoop 体系 最 底层 的 一 个 模块 ,为 Hadoop 各 模块 提供 基础 服务 。 
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图 5-2 Hadoop 主要 模块 

















Hadoop 的 其 他 模块 包含 HBase、 Pig、 Yarn、 Hive、Chukwa、Avro、Zookeeper 和 
Mahout 等 。 其 中 HBase 基于 HDFS, 是 一 个 开源 的 基于 列 存储 模型 的 分 布 式 数据 库 ， Pig 
是 处 理 海量 数据 集 的 数据 流 语言 和 运行 环境 ,运行 在 HDFS 和 MapReduce 之 上 ; Yarn 是 
Hadoop 集群 的 资源 管理 系统 ; Hive 可 以 对 存储 在 Hadoop 里 面 的 海量 数据 进行 汇总 ,并 
能 使 即时 查询 简单 化 ; Chukwa 是 基于 Hadoop 的 大 集群 监控 系统 ; Avro 可 以 使 Hadoop 
的 RPC 模块 通信 速度 更 快 .数据 结构 更 紧凑 ; Zookeeper 是 一 个 分 布 式 、 可 用 性 高 的 协调 服 
F ,提供 分 布 式 锁 之 类 的 基本 服务 ,用 于 构建 分 布 式 应 用 ; Mahout 是 一 个 在 Hadoop 上 运 
行 的 可 扩展 的 机 器 学 习 和 数据 挖掘 类 库 ( 例 如 分 类 和 聚 类 算法 ) 。 随 着 Hadoop 的 发 展 ,其 
框架 还 在 不 断 更 新 ,继续 研发 其 他 的 模块 来 支撑 海量 数据 的 运算 与 存储 。 

对 比 Hadoop 1.0 和 Hadoop 2.0, 其 核心 部 分 变化 如 图 5-3 所 示 o 
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图 5-3 Hadoop 1. 0 和 Hadoop 2. 0 核心 对 比 图 
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其 中 Hadoop2.0 中 的 Yarn 是 在 Hadoop 1.0 中 的 MapReduce 基础 上 发 展 而 来 的 , 主 
要 是 为 了 解决 Hadoop 1. 0 扩展 性 较 差 且 不 支持 多 计算 框架 而 提出 的 。 


5.2.2 Hadoop 组 成 模块 介绍 


1. HDFS 


HDFS 是 Hadoop 体系 中 数据 存储 管理 的 基础 。 它 是 一 个 高 度 容错 的 系统 ,能 检测 和 
应 对 硬件 故障 ,用 于 在 低 成 本 的 通用 硬件 上 运行 。HDFS 简化 了 文件 的 一 致 性 模型 ,通过 流 
式 数据 访问 ,提供 高 吞吐 量 应 用 程序 数据 访问 功能 ,适合 带 有 大 型 数据 集 的 应 用 程序 。 

关于 HDFS 的 详细 介绍 参见 第 6 章 。 


2. MapReduce 


MapReduce 是 一 种 编程 模型 ,用 于 大 规模 数据 集 ( 大 于 1TB) 的 并 行 运算 。MapReduce 
将 应 用 划分 为 Map 和 Reduce 两 个 步骤 ,其 中 Map 对 数据 集 上 的 独立 元 素 进 行 指定 的 操 
VE ,生成 键 - 值 对 形式 的 中 间 结 果 。Reduce 则 对 中 间 结 果 中 相同 “ 键 " 的 所 有 “ 值 ”进行 规约 ， 
以 得 到 最 终结 果 。MapReduce 这 样 的 功能 划分 ,非常 适合 在 大 量 计算 机 组 成 的 分 布 式 并 行 
环境 里 进行 数据 处 理 。MapReduce 以 JobTracker 结 点 为 主 ,分 配 工 作 以 及 负责 和 用 户 程 
序 通 信 。 

关于 MapReduce 的 详细 介绍 参见 第 7 章 。 

3. Common 


从 Hadoop 0.2. 0 版 本 开始 ,Hadoop Core 模块 更 名 为 Common, Common 是 Hadoop 
的 通用 工具 ,用 来 支持 其 他 的 Hadoop 模块 。 实 际 上 Common 提供 了 一 系列 文件 系统 和 通 
T/O 的 文件 包 , 这 些 文件 包 供 HDFS 和 MapReduce 公用 。 它 主要 包括 系统 配置 工具 、 远 
程 过 程 调用 序列 化 机 制 和 抽象 文件 系统 等 。 它 们 为 在 廉价 的 硬件 上 搭建 云 计算 环境 提供 
基本 的 服务 ,并且 为 运行 在 该 平台 上 的 软件 开发 提供 了 所 需 的 API。 其 他 Hadoop 模块 都 
是 在 Common 的 基础 上 发 展 起 来 的 。 























4. Yarn 


Yarn 是 Apache 新 引入 的 子 模块 .与 MapReduce 和 HDFS 并 列 。 由 于 在 老 的 框架 中 ， 
JobTracker 要 一 直 监 控 job 下 的 tasks 的 运行 状况 .承担 的 任务 量 过 大 .所 以 引入 Yarn 来 
解决 这 个 问题 。Yarn 的 基本 设计 思想 是 将 MapReduce 中 的 JobTracker 拆 分 成 了 两 个 独 
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立 的 服务 : 一 个 全 局 的 资源 管理 器 ResourceManager 和 每 个 应 用 程序 特有 的 
ApplicationMaster。 其 中 ResourceManager 负责 整个 系统 的 资源 管理 和 分 配 , 而 
ApplicationMaster 则 负责 单个 应 用 程序 的 管理 。 

当 用 户 向 Yarn 中 提交 一 个 应 用 程序 后 ,Yarn 将 分 两 个 阶段 运行 该 应 用 程序 : 第 一 个 
阶段 是 启动 ApplicationMaster; 第 二 个 阶段 是 由 ApplicationMaster 创建 应 用 程序 ,为 它 申 
请 资源 ,并 监控 它 的 整个 运行 过 程 ,直到 运行 成 功 。Yarn 架构 如 图 5-4 所 示 。 
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图 5-4 Yarn 架构 


5. Hive 


Hive 最 早 是 由 Facebook 设计 的 基于 Hadoop 的 一 个 数据 仓库 工具 ,可 以 将 结构 化 的 
数据 文件 映射 为 一 张 数据 库 表 .并 提供 类 SQL 查询 功能 。Hive 没有 专门 的 数据 存储 格式 ， 
也 没有 为 数据 建立 索引 ,用 户 可 以 非常 自由 地 组 织 Hive 中 的 表 , 只 需要 在 创建 表 时 告知 
Hive 数据 中 的 列 分 隔 符 和 行 分 隔 符 ,Hive 就 可 以 解析 数据 。Hive 中 所 有 的 数据 都 存储 在 
HDFS 中 ,其 本 质 是 将 SQL 转换 为 MapReduce 程序 完成 查询 。Hive 与 Hadoop 的 关系 如 
图 5-5 所 示 。 


提交 任务 到 
Hadoop 
MapReduce 运 行 


HDFS 














图 5-5 Hive 与 Hadoop 的 关系 
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使 用 Hive 的 命令 行 接口 ,在 操作 上 与 使 用 关系 数据 库 类 似 ,但 是 本 质 上 有 很 大 的 不 
同 , 例 如 : 关系 数据 库 (Relational Database Management System,RDBMS) 是 为 实时 查询 业 
务 而 设计 的 ,而 Hive 则 是 为 海量 数据 做 数据 挖掘 设计 的 ,实时 性 很 差 : Hive 使 用 的 计算 模 
型 是 MapReduce., fii RDBMS 则 是 自己 设计 的 计算 模型 ， Hive 和 RDBMS 存储 文件 的 系统 
不 同 , Hive 使 用 的 是 Hadoop 的 HDFS.RDBMS 则 是 服务 器 本 地 的 文件 系统 ; Hive 处 理 数 
据 规模 大 ,RDBMS 处 理 数据 规模 相对 较 小 ; Hive 不 使 用 索引 查询 ,RDBMS 则 经 常 使 用 索 
引 。Hive 与 RDBMS 的 对 比如 表 5-2 所 示 。 


表 5-2 Hive 5 RDBMS 对 比 


























比较 名 称 Hive RDBMS 
查询 实时 性 差 实时 性 强 
计算 模型 MapReduce 自己 设计 
存储 文件 系统 HDFS 服务 器 本 地 
处 理 数 据 规 模 大 小 
索引 无 有 
6. HBase 


HBase 即 HadoopDatabase, 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 。HBase 不 同 于 一 
般 的 关系 数据 库 ,HBase 是 一 个 适合 于 存储 非 结 构 化 数据 的 数据 库 , 而 且 HBase 是 基于 列 
而 不 是 基于 行 的 模式 。 用 户 将 数据 存储 在 一 个 表 里 ,一 个 数据 行 拥有 一 个 可 选择 的 键 和 任 
意 数量 的 列 。 由 于 HBase 表示 下 松 的 数据 ,用 户 可 以 给 行 定义 各 种 不 同 的 列 。 了 Base 主要 
用 于 需要 随机 访问 .实时 读 写 的 大 数据 。 

HBase 与 Hive 的 相同 点 是 HBase 与 Hive 都 是 架构 在 Hadoop 之 上 的 ,都 用 Hadoop 
作为 底层 存储 。 其 区 别 与 联系 如 表 5-3 所 示 。 


表 5-3 HBase 5 Hive 对 比 


























比较 名 称 HBase Hive 

用 途 弥补 Hadoop 的 实时 操作 减少 并 行 计算 编写 工作 的 批 处 理 系 统 
检索 方式 适用 于 索引 访问 适用 于 全 表 扫 描 

存储 物理 表 纯 逻 辑 表 

功能 HBase 只 负责 组 织 文 件 Hive 既 要 存储 文件 又 需要 计算 框架 
执行 效率 HBase 执行 效率 高 Hive 执行 效率 低 

7. Avro 





Avro 由 Doug Cutting 牵头 开发 .是 一 个 数据 序列 化 系统 。 类 似 于 其 他 序列 化 机 制 ， 
Avro 可 以 将 数据 结构 或 者 对 象 转换 成 便于 存储 和 传输 的 格式 ,其 设计 目标 是 用 于 支持 数据 
密集 型 应 用 ,适合 大 规模 数据 的 存储 与 交换 。Avro 提供 了 丰富 的 数据 结构 类 型 .快速 可 压 
缩 的 二 进 制 数 据 格式 、 存 储 持久 性 数据 的 文件 集 、 远 程 调用 RPC 和 简单 动态 语言 集成 等 
功能 。 
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8. Chukwa 


Chukwa 是 开源 的 数据 收集 系统 ,用 于 监控 和 分 析 大 型 分 布 式 系统 的 数据 。Chukwa 是 
在 Hadoop 的 HDFS 和 MapReduce 框架 之 上 搭建 的 , 它 同 时 继承 了 Hadoop 的 可 扩展 性 和 
健壮 性 。Chukwa 通过 HDFS 来 存储 数据 ,并 依赖 于 MapReduce 任务 处 理 数据 。Chukwa 
中 也 附带 了 灵活 且 强 大 的 工具 ,用 于 显示 、 监 视 和 分 析 数 据 结 果 , 以 便 更 好 地 利用 所 收集 的 
数据 。 


9. Pig 


Pig 是 一 个 对 大 型 数据 集 进行 分 析 和 评估 的 平台 。Pig 最 突出 的 优势 是 它 的 结构 能 够 
经 受 住 高 度 并 行 化 的 检验 ,这 个 特性 让 它 能 够 处 理 大 型 的 数据 集 。 目 前 ,Pig 的 底层 由 一 个 
编译 器 组 成 , 它 在 运行 的 时 候 会 产生 一 些 MapReduce 程序 序列 ,Pig 的 语言 层 由 一 种 叫做 
Pig Latin 的 正文 型 语言 组 成 。 


5.3 Hadoop 的 应 用 


本 节 将 介绍 Hadoop 平台 的 搭建 和 Hadoop 的 开发 方式 ,并 通过 应 用 分 析 了 解 Hadoop 
的 工作 机 制 。 


5.3.1 Hadoop 平台 搭建 


Hadoop 平台 本 身 的 开发 基于 Java 语言 ,最 早 是 为 了 在 Linux 平台 上 使 用 而 开发 的 。 
虽然 它 在 Windows 下 也 可 以 安装 并 良好 运行 ,但 在 Windows 下 安装 Hadoop 稍微 复杂 ,必须 
首先 模拟 Linux 环境 才 可 以 。 下 面 分 别 介绍 在 Linux 下 和 Windows 下 Hadoop 平台 的 搭建 。 


1. Linux 下 Hadoop 平台 的 搭建 


Hadoop 平台 的 搭建 过 程 较 为 复杂 ,需要 配置 的 软 、 硬 件 环节 较 多 ,本 小 节 介 绍 在 Linux 
操作 系统 下 搭建 Hadoop 平台 的 过 程 。 总 结 起 来 ,搭建 过 程 大 体 分 为 三 个 步骤 (以 1 台 
NameNode 结 点 .4 台 Data Node 结 点 为 例 ) 。 

1) Hadoop 环境 准备 

(1) 首先 环境 准备 ,选择 适合 的 Linux 操作 系统 ,例如 Linux Ubuntu 操作 系统 12. 04 
的 64 位 版 本 。JDK 下 载 网 址 为 : http://www. oracle. com/technetwork/java/javase/ 
downloads/index. html, 

(2) 将 这 5 台 机 器 配置 成 一 样 的 环境 并 作为 虚拟 机 ,通过 内 网 的 一 个 DNS 服务 器 , 指 
定 5 台 虚 拟 机 所 对 应 的 域名 。 

G) 为 Hadoop 集群 创建 访问 账号 Hadoop, 创 建 访问 组 Hadoop, 创 建 用 户 目 录 , 把 账 
号 .组 和 用 户 目 录 绑 定 。 

(4) 为 Hadoop 的 HDFS 创建 存储 位 置 ,如 /hadoop/conan/data0, 给 Hadoop 用 户 
权限 。 




















> 大 炊 据 技术 概论 


(5) 设置 SSH 自动 登录 ,使 得 5 台 虚 拟 机 都 有 SSH 自动 登录 配置 。 

至 此 ,环境 准备 完成 。 

2) Hadoop 完全 分 布 式 集群 搭建 

(1) 首先 ,在 NameNode 结 点 上 下 载 Hadoop, 

(2) 修改 Hadoop 配置 文件 hadoop-env. sh、hdfs-site. xml、core-site. xml、mapred-site. 
xml, 设 置 Master 和 Slaves 结 点 。 

G) 把 配置 好 的 NameNode 结 点 ,用 scp 命令 复制 到 其 他 4 台 虚 拟 机 同样 的 目录 位 置 。 

(4) 启动 NameNode 结 点 ,第 一 次 启动 时 要 先进 行 格式 化 ,命令 : bin/hadoop namenode- 
format。 

(5) 启动 Hadoop, 命 令 : bin/start-all. sh, 

输入 jps 命令 ,可 以 看 到 所 有 Java 的 系统 进程 。 只 要 SecondaryNameNode JobTracker 、 
NameNode 三 个 系统 进程 出 现 , 则 表示 Hadoop 启动 成 功 。 

通过 命令 netstat-nl, 可 以 检查 系统 打开 的 端口 。 其 中 包括 HDFS 的 9000, Jobtracker 
的 9001 .NameNode 的 Web 监控 的 50070、MapReduce 的 Web 监控 的 50030。 

其 他 的 结 点 的 测试 检查 与 上 述 方法 相同 。 

3) HDFS 测试 

Hadoop 环境 启动 成 功 ,可 以 进行 HDFS 的 简单 测试 。 

A) 在 HDFS 上 面 创建 一 个 目录 ,命令 : bin/hadoop fs -mkdir /test。 

(2) 复制 一 个 本 地 文件 到 HDFS 文件 系统 中 ,命令 : bin/hadoop fs -copyFormLocal 
README. txt/test, 

(3) 查看 刚刚 上 传 的 文件 ,命令 : bin/hadoop fs -ls/test。 

最 后 ,完成 Hadoop 的 分 步 式 安装 ,环境 搭建 成 功 。 


2. Windows 下 Hadoop 平台 的 搭建 


本 小 节 介 绍 在 Windows 操作 系统 下 搭建 Hadoop 平台 。 

1) Hadoop 环境 准备 

(1) 安装 JDK1. 6 或 更 高 版 本 

官网 下 载 JDK ,安装 时 注意 路 径 名 中 尽量 不 要 存在 空格 ,例如 Programe Files, 否则 在 
配置 Hadoop 的 配置 文件 时 会 找 不 到 JDK。 

(2) 安装 Cygwin 

Cygwin 是 Windows 平台 下 模拟 UNIX 环境 的 工具 ,需要 在 安装 Cygwin 的 基础 上 安 
装 Hadoop. FÆR HEH http://www. cygwin. com/ ,根据 操作 系统 的 需要 下 载 32 位 或 64 
的 安装 文件 。 

(3) 配置 环境 变量 

在 “我 的 电脑 * 上 右 击 ,选择 菜单 中 的 “属性 ”, 单 击 “ 属 性 ”对 话 框 上 的 “高 级 ”页 签 , 单 击 
“环境 变量 ”按钮 ,在 系统 变量 列表 里 双击 Path 变量 ,在 变量 值 后 输入 安装 的 Cygwin 的 bin 
目录 ,例如 D:\hadoop\cygwin64\bin。 

(4) 安装 sshd 服务 

双击 桌面 上 的 Cygwin 图 标 .启动 Cygwin, 执 行 ssh-host-config -y 命令 。 执 行 后 会 提 
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示 输 入 密码 , 否则 会 退出 该 配置 ,此 时 输入 密码 并 确认 密码 , 回 车 。 最 后 出 现 “ Host 
configuration finished. Have fun!” 表 示 安 装 成 功 。 此 时 输入 net start sshd 启动 服务 或 者 在 
系统 的 服务 里 找到 并 启动 Cygwin sshd 服务 。 如 果 使 用 的 是 Windows 8 操作 系统 ,启动 
Cygwin 时 ,需要 以 管理 员 身 份 运行 ,否则 会 因为 权限 问题 提示 “发 生 系统 错误 5”。 

(5) 配置 SSH 免 密 码 登 录 

执行 ssh-keygen 命令 生成 密 钥 文件 ,输入 : ssh-keygen -t dsa -P ''-f ~/. ssh/id_dsa, 
注意 -t -P -{ 参数 区 分 大 小 写 。 其 中 ssh-keygen 是 生成 密 钥 命令 , -t 表示 指定 生成 的 密 钥 
类 型 (dsa,rsa) ,-P 表 示 提 供 的 密语 ,-f 指定 生成 的 密 钥 文件 。 执 行 此 命令 后 ,在 Cygwin\ 
home\ 用 户 名 路 径 下 面 会 生成 . ssh 文件 夹 ,可 以 通过 命令 ls -a /home/ 用 户 名 查看 、ssh - 
version 命令 查看 版 本 。 然 后 执行 exit 命令 ,退出 Cygwin 窗口 。 

至 此 ,环境 准备 完成 。 

2) Hadoop 完全 分 步 式 集群 搭建 

Hadoop 官网 下 载 http: //hadoop. apache. org/releases. html。 把 Hadoop 压缩 包 解 压 
到 /home/ 用 户 名 目录 下 ,文件 夹 名 称 更 改 为 hadoop。 

(1) 单机 模式 配置 方式 

单机 模式 不 需要 配置 ,这 种 方式 下 , Hadoop 被 认为 是 一 个 单独 的 Java 进程 ,这 种 方式 
经 常用 来 调试 。 

(2) 伪 分 布 模式 

可 以 把 伪 分 布 模式 看 作 是 只 有 一 个 结 点 的 集群 ,在 这 个 集群 中 ,这 个 结 点 既是 Master， 
也 是 Slave, 既 是 NameNode, 也 是 DataNode, 既 是 JobTracker, 也 是 TaskTracker。 这 种 模 
式 下 修改 几 个 配置 文件 即 可 。 配 置 hadoop-env. sh, 记 事 本 打开 改 文件 ,设置 Java_home 的 
值 为 JDK 的 安装 路 径 。 

3) Hadoop 测试 

启动 Hadoop 前 ,需要 先 格式 化 Hadoop 的 文件 系统 HDFS, 执行 命令 : bin/hadoop 
name node -format。 接 下 来 ,验证 是 否 安装 成 功 。 打 开 浏览 器 ,输入 网 址 http://localhost; 
50030, 如 果 能 够 正常 浏览 .说 明 安装 成 功 。 


5.3.2 Hadoop 的 开发 方式 


Hadoop 的 开发 方式 基于 分 布 式 文件 系统 ,其 在 很 大 程度 上 是 为 各 种 分 布 式 计算 需求 
所 服务 的 。Hadoop 将 分 布 式 文件 系统 推广 到 分 布 式 计算 上 ,所 以 可 以 将 其 视 为 增加 了 分 
布 式 支 持 的 计算 函数 ,其 开发 方式 可 归纳 为 以 下 的 三 点 。 


1. 数据 分 布 存 储 


HDFS 是 Hadoop 框架 的 分 布 式 并 行文 件 系统 ,是 分 布 式 计算 的 存储 基石 。 它 负责 数 
据 分 布 式 存储 及 数据 的 管理 ,并 能 提供 高 吞吐 量 的 数据 访问 ,文件 会 被 分 割 成 多 个 文件 块 ， 
每 个 文件 块 被 分 配 存 储 到 数据 结 点 上 ,而 且 根据 配置 会 有 复制 的 文件 块 来 保证 数据 安全 性 。 


2. 并 行 计算 
并 行 计算 是 相对 于 串 行 计算 来 说 的 ,可 分 为 时 间 上 的 并 行 和 空间 上 的 并 行 。 时 间 上 的 





E Aie 技术 概论 


并 行 就 是 指 流 水 线 技术 ,而 空间 上 的 并 行 则 是 指 用 多 个 处 理 器 并 发 的 执行 计算 。 并 行 计 算 
的 目的 就 是 提供 单 处 理 器 无 法 提供 的 性 能 (处 理 器 能 力 或 存储 器 ) ,使 用 多 处 理 器 求解 单个 
问题 。 分 布 式 计算 是 研究 如 何 把 一 个 需要 非常 巨大 的 计算 能 力 才能 解决 的 问题 分 成 许多 小 
的 部 分 ,然后 把 这 些 部 分 分 配给 许多 计算 机 进行 处 理 , 最 后 把 这 些 计 算 结 果 综 合 起 来 得 到 最 
终 的 结果 。Hadoop 中 的 MapReduce 将 计算 作业 分 成 许多 小 的 单元 ,同时 数据 也 会 被 
HDFS 分 为 多 个 数据 块 ,并 且 每 个 数据 块 被 复制 多 份 ,保证 系统 的 可 靠 性 ,HDFS 按照 一 定 
的 规则 将 数据 块 放置 在 集群 中 的 不 同 机 器 上 ,以 便 MapReduce 在 数据 宿主 机 器 上 进行 
计算 。 
3. 结果 输出 


数据 存储 在 哪 台 计 算 机 上 ,就 由 哪 台 计算 机 进行 计算 ,最 后 将 分 解 后 多 任务 处 理 的 结果 
汇总 起 来 ,对 计算 结果 进行 排序 输出 。 

这 里 简要 介绍 了 Hadoop 的 并 行 开发 流程 ,详细 的 工作 原理 及 流程 介绍 可 参见 第 6 章 
和 第 7 章 。 


5.3.3 Hadoop 应 用 分 析 


以 对 海量 数据 排序 为 例 ,Hadoop 采用 分 而 治之 的 计算 模型 ,对 海量 数据 进行 排序 时 可 
以 参照 编程 快速 排序 的 思想 。 快 速 排序 法 的 基本 精神 是 在 数列 中 找 出 适当 的 轴 心 ,然后 将 
数列 一 分 为 二 ,分 别 对 左边 与 右边 数列 进行 排序 。 


1. 传统 的 数据 排序 方式 


传统 的 数据 排序 就 是 使 一 串 记 录 ,按照 其 中 的 某 个 或 某 些 关键 字 的 大 小 ,递增 或 递减 地 
排列 起 来 的 操作 。 排 序 算法 是 如 何 使 得 记录 按照 要 求 排列 的 方法 。 排 序 算法 在 很 多 领域 得 
到 相当 的 重视 ,尤其 是 在 大 量 数据 的 处 理 方面 。 一 个 优秀 的 算法 可 以 节省 大 量 的 资源 。 在 
各 个 领域 中 考虑 到 数据 的 各 种 限制 和 规范 ,要 得 到 一 个 符合 实际 的 优秀 算法 ,得 经 过 大 量 的 
推理 和 分 析 。 

下 面 以 快速 排序 为 例 , 对 数据 集合 ecCz) 从 小 到 大 排序 的 步 又 如 下 。 

(1) 首先 设 定 一 个 待 排 序 的 元 素 al). 

(2) 遍历 要 排序 的 数据 集合 c(z) ,经 过 一 轮 划 分 排序 后 在 ec(z) 左 边 的 元 素 值 都 小 于 
它 ,在 a(z) 右 边 的 元 素 值 都 大 于 它 。 

(3) 再 按 此 方法 对 a(x) 两 侧 的 这 两 部 分 数据 分 别 再 次 进行 快速 排序 ,整个 排序 过 程 可 
以 递归 进行 ,以 此 达到 整个 数据 集合 变 成 有 序 序 列 的 目的 。 


2. Hadoop 的 数据 排序 方式 


设想 如 果 将 数据 a(n) 分 割 成 M 个 部 分 ,将 这 M 个 部 分 送 去 MapReduce 进行 计算 、 自 
动 排序 ,最 后 输出 内 部 有 序 的 文件 ,再 把 这 些 文件 首尾 相连 合并 成 一 个 文件 , 即 可 完成 排序 。 
操作 具体 步骤 如 表 5-4 所 示 。 

















<<< 
表 5-4 大 数据 排序 步骤 
F 号 步骤 名 称 具体 操作 
1 抽样 对 等 待 排序 的 海量 数据 进行 抽样 
2 设置 断 点 对 抽样 数据 进行 排序 ,产生 断 点 ,以 便 进行 数据 分 割 
3 Map 对 输入 的 数据 计算 所 处 断 点 位 置 并 将 数据 发 给 对 应 ID 的 Reduce 
4 Reduce Reduce 将 获得 的 数据 进行 输出 











本 章 小 结 


短 短 几 年 间 ,Hadoop 从 一 种 边缘 技术 成 为 事实 上 的 企业 大 数据 的 标准 ,Hadoop 几乎 
成 为 大 数据 的 代名词 。 作 为 一 种 用 于 存储 和 分 析 大 数据 开源 软件 平台 ,Hadoop 可 处 理 分 
布 在 多 个 服务 器 中 的 数据 ,尤其 适合 处 理 来 自 手机 、 电 子 邮 件 、. 社 交 媒 体 、 传 感 器 网 络 和 其 他 
不 同 渠 道 的 多 样 化 .大 负荷 的 数据 。 

本 章 对 Hadoop 的 起 源 、 功 能 与 优势 .应 用 现状 ,发 展 趋势 和 平台 搭建 进行 了 简要 的 介 
绍 ,重点 讲解 了 Hadoop 的 各 个 功能 模块 。 通 过 本 章 的 学 习 , 读 者 将 会 打下 一 个 基本 的 
Hadoop 理论 基础 。 

【注释 】 

1. Apache 软件 基金 会 (Apache Software Foundation,ASF) : 是 专门 为 支持 开源 软件 项 目 而 办 的 一 个 
非 盈 利 性 组 织 。 在 它 所 支持 的 Apache 项 目 与 模块 中 ,所 发 行 的 软件 产品 都 遵循 Apache 许可 证 (Apache 
License) 。 

2. GFS: 是 一 个 可 扩展 的 分 布 式 文件 系统 ,用 于 大 型 的 ,分 布 式 的 、 对 大 量 数据 进行 访问 的 应 用 。 它 运 
行 于 廉价 的 普通 硬件 上 ,并 提供 容错 功能 。 它 可 以 给 大 量 的 用 户 提供 总 体 性 能 较 高 的 服务 。 

3. RPC(Remote Procedure Call Protocol, 远 程 过 程 调用 协议 ): 是 一 种 通过 网 络 从 远程 计算 机 程序 上 
请 求 服务 ,而 不 需要 了 解 底层 网 络 技术 的 协议 。 

4. 序列 化 (Serialization): 是 将 对 象 的 状态 信息 转换 为 可 以 存储 或 传输 的 形式 的 过 程 。 在 序列 化 期 
间 , 对 象 将 其 当前 状态 写 入 到 临时 或 持久 性 存储 区 。 以 后 ,可 以 通过 从 存储 区 中 读 取 或 反 序 列 化 对 象 的 状 
态 , 重 新 创建 该 对 象 。 

5. 抽象 文件 系统 : 与 实体 对 应 , 它 是 由 概念 原理、 假说 ,方法 计划、 制度, 程序 等 非 物 质 实体 构成 的 
系统 ,实体 与 抽象 两 类 系统 在 实际 中 常 结合 在 一 起 ,以 实现 一 定 功能 。 抽 象 文件 系统 往往 对 实体 系统 提供 
指导 和 服务 。 

6. SSH(Secure Shell); 由 IETF 的 网 络 工 作 小 组 (Network Working Group) 所 制定 。SSH 为 建立 在 
应 用 层 和 传输 层 基础 上 的 安全 协议 。SSH 是 目前 较 可 靠 , 专 为 远程 登录 会 话 和 其 他 网 络 服务 提供 安全 性 
的 协议 。 利 用 SSH 协议 可 以 有 效 防止 远程 管理 过 程 中 的 信息 泄露 问题 。SSH 最 初 是 UNIX 系统 上 的 一 
个 程序 ,后 来 又 迅速 扩展 到 其 他 操作 平台 。SSH 在 正确 使 用 时 可 弥补 网 络 中 的 漏洞 。SSH 客户 端 适用 于 
多 种 平台 。 几 乎 所 有 UNIX 平台 一 一 包括 HP-UX, Linux, AIX „Solaris, Digital UNIX \Irix, 以 及 其 他 平台 ， 
都 可 以 运行 SSH 。 

7. RDBMS( Relational Database Management System, 关 系数 据 库 管理 系统 ): 是 将 数据 组 织 为 相关 的 
行 和 列 的 系统 ,而 管理 关系 数据 库 的 计算 机 软件 就 是 关系 数据 库 管理 系统 ,常用 的 数据 库 软 件 有 Oracle, 
SQL Server 等 。 

8. sshd: Linux 下 的 服务 器 进程 名 。 

9. APICApplication Programming Interface, 应 用 程序 编程 接口 ): 是 一 些 预先 定义 的 函数 ,目的 是 提 
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供应 用 程序 与 开发 人 员 基 于 某 软 件 或 硬件 得 以 访问 一 组 例 程 的 能 力 , 而 又 无 须 访问 源码 ,或 理解 内 部 工作 
机 制 的 细节 。 


10. 动态 语言 : 
在 结构 上 的 变化 。 例 如 众所周知 的 ECMAScript (JavaScript) 便 是 一 个 动态 语言 。 
Python 等 也 都 属于 动态 语言 ,而 C.C++ 等 语言 则 不 属于 动态 语言 。 


>>> 


是 指 程序 在 运行 时 可 以 改变 其 结构 ,新 的 函数 可 以 被 引进 ,已 有 的 函数 可 以 被 删除 等 
除 此 之 外 如 Ruby、 
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内 容 与 要 求 
本 章 介绍 了 Hadoop 的 核心 模块 HDFS 和 Common, 它 们 承担 了 Hadoop 最 主要 的 
功能 和 任务 。 其 中 HDFS 提供 了 海量 数据 的 存储 ,Common 是 Hadoop 的 通用 工具 ,用 
来 支持 其 他 的 Hadoop 模块 。 
HDFS 概述 介绍 了 HDFS 的 相关 概念 和 特点 ,要 求 掌握 HDFS 的 体系 结构 和 工作 
原理 ,了 解 HDFS 的 源 代码 结构 、 相 关 技 术 和 接口 知识 。 
Common 概述 介绍 了 Common £ Hadoop 中 的 位 置 ,要 求 了 解 Common 的 功能 和 


主要 工具 包 。 





重点 .难点 
本 章 的 重点 是 HDFS 的 体系 结构 和 工作 原理 。 本 章 的 难点 是 理解 HDFS 的 体系 
结构 。 














HDFS 和 Common 是 Hadoop 的 核心 模块 .承担 了 Hadoop 最 主要 的 功能 和 任务 。 其 
中 HDFS 提供 了 海量 数据 的 存储 .Common 提供 了 一 系列 文件 系统 和 通用 1/0 的 文件 包 ， 
这 些 文件 包 供 HDFS 及 其 他 模块 共同 使 用 。 
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6.1 HDFS 概述 


HDFS( Hadoop Distributed File System) 是 Hadoop 架构 下 的 分 布 式 文件 系统 。HDFS 
是 Hadoop 的 一 个 核心 模块 ,负责 分 布 式 地 存储 和 管理 数据 ,具有 高 容错 性 、 高 吞吐 量 等 优 
点 ,并 提供 了 多 种 访问 模式 。HDFS 能 做 到 对 上 层 用 户 的 绝对 透明 ,使 用 者 不 需要 了 解 其 内 
部 结构 就 能 得 到 HDFS 提供 的 服务 。 并 且 ,HDFS 提供 了 一 系列 的 API, 拥 有 让 开发 者 和 
研究 人 员 快 速 编写 基于 HDFS 的 应 用 。 


6.1.1 HDFS 相关 概念 


由 于 HDFS 分 布 式 文件 系统 概念 相对 复杂 ,在 下 面 内 容 介 绍 之 前 对 其 相关 概念 介绍 
如 下 。 

Metadata 是 元 数据 ,元 数据 信息 包括 名 称 空间 、 文 件 到 文件 块 的 映射 ,文件 块 到 
DataNode 的 映射 三 部 分 。 

NameNode 是 HDFS 系统 中 的 管理 者 ,负责 管理 文件 系统 的 命名 空间 ,维护 文件 系统 
的 文件 树 及 所 有 的 文件 和 目录 的 元 数据 。 在 一 个 Hadoop 集群 环境 中 ,一 般 只 有 一 个 
NameNode, 它 成 为 了 整个 HDFS 系统 的 关键 故障 点 ,对 整个 系统 的 运行 有 较 大 影响 。 

Secondary NameNode 是 NameNode 发 生 故 障 时 的 备用 节点 ,主要 功能 是 进行 数据 恢 
复 。 当 NameNode 运行 了 很 长 时 间 后 ,edit logs 文件 会 变 得 很 大 。 在 这 种 情况 下 就 会 出 现 
以 下 一 些 问题 : 

(1) edit logs 文件 会 变 得 很 大 ,如 何 管理 此 文件 是 一 个 问题 。 

(2) NameNode 的 重启 会 花费 很 长 时 间 , 因 为 有 很 多 改动 要 合并 到 fsimage 文件 上 。 

(3) 如 果 NameNode 出 现 故障 , 那 就 丢失 了 很 多 改动 ,因为 此 时 的 fsimage 文件 未 
更 新 。 

Secondary NameNode 解决 了 上 述 问题 , 它 的 职责 是 合并 NameNode 的 edit logs 到 
fsimage 文件 中 ,如 图 6-1 所 示 。 





Secondary 
NameNode 








定时 查询 NameNode 上 的 edit logs 
NameNode 











把 edit logs 改 动 更 新 到 fsimage 中 





—— fsimage 


把 fsimage 找 贝 回 NameNode 上 


图 6-1 Secondary NameNode 工作 原理 


DataNode 是 HDFS 文件 系 统 中 保存 数据 的 结 点 ,根据 需要 存储 并 检索 数据 块 , 受 客户 
端 或 NameNode 调度 ,并 定期 向 NameNode 发 送 它们 所 存储 的 块 的 列表 。 


<<< 


Client 是 客户 端 ,HDFS 文件 系统 的 使 用 者 。 它 通过 调用 HDFS 提供 的 API 对 系统 中 
的 文件 进行 读 写 操作 。 

块 是 HDFS 中 的 存储 单位 ,默认 为 64MB。 在 HDFS 中 文件 被 分 成 许多 大 小 一 定 大 小 
的 分 块 ,作为 单独 的 单元 存储 。 


6.1.2 HDFS 特点 


HDFS 被 设计 成 适合 运行 在 通用 硬件 (Commodity Hardware) 上 的 分 布 式 文件 系统 。 
它 是 一 个 高 度 容错 性 的 系统 ,适合 部 署 在 廉价 的 机 器 上 ,能 提供 高 吞吐 量 的 数据 访问 ,适合 
大 规模 数据 集 上 的 应 用 ,同时 放宽 了 一 部 分 POSIX( 可 移植 操作 系统 接口 ) 约 束 ,实现 流 式 
读 取 文件 系统 数据 的 目的 。 总 体 说 来 可 将 HDFS 的 主要 特点 概括 为 以 下 几 点 。 


1. 高 效 的 硬件 响应 


HDFS 可 能 由 成 百 上 千 的 服务 器 所 构成 ,每 个 服务 器 上 都 存储 着 文件 系统 的 部 分 数据 。 
构成 系统 的 模块 数目 是 巨大 的 ,而 且 任何 一 个 模块 都 有 可 能 失效 ,这 意味 着 总 是 有 一 部 分 
HDFS 的 模块 是 不 工作 的 ,因此 错误 检测 和 快速 .自动 的 恢复 是 HDFS 重要 特点 。 


2. 流 式 数 据 访问 


运行 在 HDFS 上 的 应 用 和 普通 的 应 用 不 同 , 需 要 流 式 访问 它们 的 数据 集 。 流 式 数据 的 
特点 是 像 流水 一 样 ,是 一 点 一 点 “ 流 ” 过 来 ,而 流 式 数据 也 是 一 点 一 点 进行 处 理 的 。 如 果 是 全 
部 收 到 数据 以 后 再 处 理 , 那 么 延迟 会 很 大 ,而 且 在 很 多 场合 会 消耗 大 量 内 存 。HDFS 的 设计 
中 更 多 地 考虑 到 了 数据 批 处 理 , 而 不 是 用 户 交互 处 理 。 较 之 数据 访问 的 低 延 迟 问 题 , 更 关键 
在 于 数据 访问 的 高 吞吐 量 。POSIX 标准 设置 的 很 多 硬性 约束 对 HDFS 应 用 系统 不 是 必需 
的 ,为 了 提高 数据 的 吞吐 量 , 在 一 些 关 键 方面 对 POSIX 的 语义 做 了 一 些 修改 。 


3. 大 规模 数据 集 
运行 在 HDFS 上 的 应 用 具有 很 大 的 数据 集 。HDFS 上 的 一 个 典型 文件 大 小 一 般 都 在 


GB 至 TB 级别 。HDFS 能 提供 较 高 的 数据 传输 带宽 ,能 在 一 个 集群 里 扩展 到 数 百 个 结 点 。 
一 个 单一 的 HDFS 实例 能 支撑 数 以 千 万 计 的 文件 。 


4. 简单 的 一 致 性 模型 


HDFS 应 用 采用 “一 次 写 人 多 次 读 取 ” 的 文件 访问 模型 。 一 个 文件 经 过 创建 , 写 入 和 关 
闭 之 后 就 不 再 需要 改变 。 这 一 模型 简化 了 数据 一 致 性 的 问题 ,并 且 使 高 吞吐 量 的 数据 访问 
成 为 可 能 。MapReduce 应 用 或 网 络 怜 虫 应 用 都 遵循 该 模型 。 


5. 异 构 软 硬件 平台 间 的 可 移植 性 


HDFS 在 设计 的 时 候 就 考虑 到 平台 的 可 移植 性 ,这 种 特性 方便 了 HDFS 作为 大 规模 数 
据 应 用 平台 的 推广 。 

需要 注意 的 是 HDFS 不 适用 于 以 下 应 用 : 

(1) 低 延 迟 数据 访问 。 因 为 HDFS 关注 的 是 数据 的 吞吐 量 , 而 不 是 数据 的 访问 速度 ,所 
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以 HDFS 不 适用 于 要 求 低 延迟 的 数据 访问 应 用 。 

(2) 大 量 小 文件 。HDFS 中 NameNode 负责 管理 元 数据 的 任务 , 当 文件 数量 太 多 时 就 
会 受到 NameNode 容量 的 限制 。 例 如 ,每 个 文件 的 索引 目录 及 块 大 约 占 100 字 节 ,如 果 有 
100 万 个 文件 ,每 个 文件 占 一 个 块 , 那 么 至 少 要 消耗 200MB 内 存 。 当 文件 数 更 多 时 ， 
NameNode 检索 处 理 元 数据 的 时 间 会 很 长 ,内 存 消耗 也 非常 高 。 

(3) 多 用 户 写 入 修改 文件 。HDFS 中 的 文件 只 能 有 一 个 写 入 者 ,而 且 写 操作 总 是 在 文 
件 结尾 处 ,不 支持 多 个 写 和 人 者 ,也 不 支持 在 数据 写 和 人 后 在 文件 的 任意 位 置 进行 修改 。 


6.1.3 HDFS 体系 结构 


HDFS 采用 了 主 从 结构 构建 ,NameNode 为 Master( 主 ) ,其 他 DataNode 为 Slave( 从 )。 
文件 以 数据 块 的 形式 存储 在 DataNode 中 。NameNode 和 DataNode 都 以 Java 程序 的 形式 
运行 在 普通 的 计算 机 上 ,操作 系统 一 般 采 用 Linux。 一 个 HDFS 分 布 式 文件 系统 的 架构 如 
图 6-2 所 示 。 






















Metadata 


(Name, replicas, ...) 

/home/foo/datal—2,3.... Secondary 
/home/foo/data2 一 1.4.…. NameNode 
Client ——— ——— Client 

































图 6-2 HDFS 架构 图 


(1) ERD: NameNode 是 HDFS 系统 中 的 管理 者 ,对 Metadata 元 数据 进行 管理 , 负 
责 管理 文件 系统 的 命名 空间 、 维 护 文件 系统 的 文件 树 及 所 有 的 文件 和 目录 的 元 数据 。 

(2) ERO: 当 NameNode 发 生 故障 时 ,使 用 Secondary NameNode 进行 数据 恢复 。 它 
一 般 在 一 台 单独 的 物理 计算 机 上 运行 .与 NameNode 保持 通信 ,按照 一 定时 间 间 隔 保存 文 
件 系统 元 数据 的 快照 ,以 备 NameNode 发 生 故 障 时 进行 数据 恢复 。 

G) ERO: HDFS 中 的 文件 通常 被 分 割 为 多 个 数据 块 ,存储 在 多 个 DataNode 中 。 
DataNode 上 存 了 数据 块 ID 和 数据 块 内 容 .以 及 它们 的 映射 关系 。 文件 存储 在 多 个 
DataNode 中 ,但 DataNode 中 的 数据 块 未 必 都 被 使 用 ,如 图 6-2 中 的 空白 块 。 

(4) ERO: NameNode 中 保存 了 每 个 文件 与 数据 块 所 在 的 Data Node 的 对 应 关系 ,并 
管理 文件 系统 的 命名 空间 。DataNode 定期 向 NameNode 报告 其 存储 的 数据 块 列表 ,以 备 


第 6 章 HDFS 和 Common 概 论 ~ 


人 


使 用 者 直接 访问 DataNode 获得 相应 的 数据 。DataNode 还 周期 性 地 向 NameNode 发 送 心 
跳 信 号 提示 DataNode 是 否 工作 正常 。DataNode 与 NameNode 还 进行 交互 ,对 文件 块 的 创 
建 、 删 除 、 复 制 等 操作 进行 指挥 与 调度 ,只 有 在 交互 过 程 中 收 到 了 NameNode 的 命令 后 才 开 
始 执行 指定 操作 。 

(5) 连 线 @: Client 是 HDFS 文件 系统 的 使 用 者 ,在 进行 读 写 操作 时 ,Client 需要 先 从 
NameNode 获得 文件 存储 的 元 数据 信息 。 

(6) ERO: Client 从 NameNode 获得 文件 存储 的 元 数据 信息 后 ,与 相应 的 
DataNode 进行 数据 读 写 操作 。 


6.1.4 HDFS 工作 原理 
下 面 以 一 个 文件 File A( 大 小 100MB) 为 例 , 说 明 HDFS 的 工作 原理 。 
1. HDFS 的 读 操作 


HDFS 的 读 操 作 原 理 较 为 简单 ,Client 要 从 DataNode 上 读 取 File A, mi File A 由 
Blockl 和 Block2 组 成 。 其 流程 如 图 6-3 所 示 。 


Client 


Block1 
64MB 
100MB 
Block2 
36MB 








NN DN 
(master) (host5) 
DI 


N 
(host2) 




















(host6) 











Rackl 





图 6-3 HDFS 读 操 作 流程 


左 侧 为 Client, 即 客户 端 。FileA 分 成 Blockl 和 Block2 两 块 。 

右 侧 为 Switch, 即 交换 机 。HDFS 按 默认 配置 将 文件 分 布 在 Rack1 .Rack2、Rack3 三 个 
机 架 上 。 

过 程 步 又 如 下 。 

(1) ÆR: Client 向 NameNode 发 送 读 请 求 。 

(2) ERO: NameNode 查看 Metadata 信息 .返回 File A 的 Block 的 位 置 。 


De 大 元 据 技 术 概论 


Blockl 位 置 : host2, hostl, host3( 如 图 6-3 中 的 浅 色 背景 ); Block2 位 置 : host7， 
host8,host4( 如 图 6-3 中 的 深 色 背 景 ) 。 

(3) Block 的 位 置 是 有 先后 顺序 的 , 先 读 Blockl ,再 读 Block2 ,而 且 Blockl 去 host2 上 
读 取 ,然后 Block? 去 host7 上 读 取 。 

在 读 取 文件 过 程 中 ,DataNode 向 NameNode 报告 状态 。 每 个 DataNode 会 周期 性 地 向 
NameNode 发 送 心 跳 信 号 和 文件 块 状态 报告 ,以 便 NameNode 获取 到 工作 集群 中 DataNode 
状态 的 全 局 视图 ,从 而 掌握 它们 的 状态 。 如 果 存 在 DataNode 失效 的 情况 , NameNode 会 调 
度 其 他 DataNode 执行 失效 结 点 上 文件 块 的 读 取 处 理 。 


2. HDFS 的 写 操作 


HDFS 中 Client 写 入 文件 File A 的 流程 如 图 6-4 所 示 。 





NN: NamcNode 
D) aNode 
Hadoop 集 群 Rack: 机 架 























DN 
(host5) 











(host6) 














图 6-4 HDFS 写 操作 流程 


(1) Client 将 FileA 按 64MB 分 块 ,分 成 Blockl 和 Block2 两 块 。 

(2) ÆRO: Client 向 NameNode 发 送 写 数据 请 求 。 

(3) ERO: NameNode 记录 着 Block 信息 ,并 返回 可 用 的 DataNode。 

Blockl 位 置 : host2.hostl.host3 可 用 (如 图 6-3 中 的 浅 色 背景 ); Block2 位 置 : host7， 
host8,host4 可 用 (如 图 6-3 中 的 深 色 背 景 )。 

(4) Client 向 DataNode 发 送 Block1. 发 送 过 程 以 流 式 写 入 。 流 式 写 入 过 程 如 下 : 

(Q) 将 64MB 的 Blockl 按 64KB 大 小 划分 成 package. 

@ Client 将 第 一 个 package 发 送 给 host2。 

© host2 接收 完 后 ,将 第 一 个 package 发 送 给 host1; 同时 Client 向 host? 发 送 第 二 个 
package。 

@ host1 接收 完 第 一 个 package 后 发 送 给 host3, 同 时 接收 host2 发 来 的 第 二 个 
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package, 

© 以 此 类 推 ,直到 将 Block1 发 送 完毕 。 

© host2、hostl ,host3 向 NameNode,host2 向 Client 发 送 通 知 ,说 明 消 息 发 送 完 毕 。 

@ Client 收 到 host2 发 来 的 消息 后 向 NameNode 发 送 消 息 , 说 明 写 操作 完成 。 这 样 就 
完成 Block1 的 写 操作 。 

@ 发 送 完 Blockl 后 ,再 向 host7、host8、host4 发 送 Block2。 

@ 发 送 完 Block2 后 ,host7、host8、host4 向 NameNode,host7 向 Client 发 送 通知 。 

四 Client 向 NameNode 发 送 消息 ,说 明 写 操作 完成 。 

在 写 文件 过 程 中 ,每 个 DataNode 会 周期 性 地 向 NameNode 发 送 心跳 信号 和 文件 块 状 
态 报 告 。 如 果 存 在 DataNode 失效 的 情况 ,NameNode 会 调度 其 他 DataNode 执行 失效 结 点 
上 文件 块 的 复制 处 理 ,保证 文件 块 的 副本 数 达到 规定 数量 。 


6.1.5 HDFS 相关 技术 


在 HDFS 分 布 式 存储 和 管理 数据 的 过 程 中 ,为 了 保证 数据 的 可 靠 性 、 安 全 性 、 高 容错 性 
等 特点 采用 了 以 下 技术 。 


1. 文件 命名 空间 

















HDFS 使 用 的 系统 结构 是 传统 的 层次 结构 ,但 是 在 做 好 相应 的 配置 后 ,对 于 上 层 应 用 来 
说 ,就 几乎 可 以 当成 是 普通 文件 系统 来 看 待 ,忽略 HDFS 的 底层 实现 。 

上 层 应 用 可 以 创建 文件 夹 ' 可 以 在 文件 夹 中 放置 文件 ; 可 以 创建 .删除 文件 ; 可 以 移动 
文件 到 另 一 个 文件 夹 中 ; 可 以 重 命 名 文件 。 但 是 ,HDFS 还 有 一 些 常用 功能 尚未 实现 ,例如 
硬 链接 、 软 链接 等 功能 。 这 种 层次 目录 结构 跟 其 他 大 多 数 文件 系统 类 似 。 

对 于 上 层 应 用 来 说 , HDFS 与 普通 文件 系统 最 大 的 区 别 就 是 文件 的 副本 元 余 机 制 。 
HDFS 中 同一 文件 一 般 有 多 个 拷贝 ,拷贝 数 称 为 文件 的 副本 因子 。 每 个 文件 的 副本 因子 可 
以 是 不 一 样 的 ,但 一 般 都 是 3。 这 些 元 数据 ,还 有 整个 文件 系统 的 命名 空间 都 由 NameNode 
保存 和 维护 。 


2. 权限 管理 


HDFS 支持 文件 权限 控制 ,但 是 目前 的 支持 相对 不 足 。HDFS 采用 了 UNIX 权限 码 的 
模式 来 表示 权限 ,每 个 文件 或 目录 都 关联 着 一 个 所 有 者 用 户 和 用 户 组 以 及 对 应 的 权限 码 
rwx(read、 write, execute)。 每 次 文件 或 目录 操作 ,客户 端 都 要 把 完整 的 文件 名 传 给 
NameNode, 每 次 都 要 对 这 个 路 径 的 操作 权限 进行 判断 。HDFS 的 实现 与 POSIX 标准 类 
似 , 但 是 HDFS 没有 严格 遵守 POSIX 标准 。 

当 用 户 连接 到 HDFS 进行 文件 操作 时 ,首先 要 向 HDFS 发 送 自己 的 身份 信息 (User 
Group Information) 。 这 个 用 户 信息 可 以 是 来 自 客户 端的 配置 ,也 可 以 是 直接 获取 的 当前 
操作 系统 的 用 户 信息 , 但 是 会 优先 考虑 前 者 。 运 行 NameNode 的 用 户 不 需要 任何 配置 , 自 
动 成 为 集群 的 超级 用 户 。 这 样 的 安全 策略 会 导致 Hadoop 集群 面临 很 多 安全 问题 ,用 户 可 
以 以 任何 身份 访问 HDFS. 但 是 在 Hadoop 1. 0. 0 版 本 中 加 入 了 用 JAAS 技术 实现 的 安全 和 
授权 机 制 ,使 得 Hadoop 集群 更 加 安全 稳定 。 
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3. 元 数据 管理 


NameNode 是 HDFS 的 元 数据 计算 机 ,在 其 内 存 中 保存 着 整个 分 布 式 文件 系统 的 两 类 
元 数据 : 文件 系统 的 命名 空间 , 即 系 统 目 录 树 ; 数据 块 副本 与 DataNode 的 映射 , 即 副本 的 
位 置 。 

对 于 上 述 第 一 类 元 数据 , NameNode 会 定期 持久 化 ,第 二 类 元 数据 则 靠 DataNode 
BlockReport 获得 。 

NameNode 把 每 次 对 文件 系统 的 修改 作为 一 条 日 志 添 加 到 操作 系统 本 地 文件 中 。 例 
如 ,创建 文件 ,修改 文件 的 副本 因子 都 会 使 得 NameNode 向 edit log 添加 相应 的 操作 记录 。 
当 NameNode 启动 时 ,首先 从 镜像 文件 fsImage 中 读 取 HDFS 所 有 文件 目录 元 数据 加 载 到 
内 存 中 ,然后 把 edit log 文件 中 的 修改 日 志 加 载 并 应 用 到 元 数据 ,这 样 启动 后 的 元 数据 是 最 
新 版 本 的 。 之 后 ,NameNode 再 把 合并 后 的 元 数据 写 回 到 FsImage, 新建 一 个 空 edit log X 
件 以 写 入 修改 日 志 。 

由 于 NameNode 只 在 启动 时 才 合 并 fsImage 和 edit log 两 个 文件 ,这 将 导致 edit log 日 
志文 件 可 能 会 很 大 ,并 且 运 行 得 越久 就 越 大 ,下 次 启动 时 合并 操作 所 需要 的 时 间 就 越久 。 以 
FaceBook 的 统计 为 例 ,规模 为 1. 5 亿 个 文件 ,1. 5 亿 个 数据 块 .2000 结 点 的 集群 ,加 载 名 字 
空间 元 数据 和 等 待 块 位 置 映射 信息 上 报 ,每 个 阶段 所 耗费 的 时 间 大 概 都 在 20min 左右 。 为 
了 解决 这 一 问题 ,Hadoop 引入 Secondary NameNode 机 制 ,Secondary NameNode 可 以 随时 
替换 为 NameNode, 让 集群 继续 工作 。 


4. 单 点 故障 问题 


HDFS 的 主 从 式 结构 极 大 地 简化 了 系统 体系 结构 ,降低 了 设计 的 复杂 度 , 用 户 的 数据 也 
不 会 经 过 NameNode。 但 是 问题 也 是 显而易见 的 ,单一 的 NameNode 结 点 容易 导 臻 单 点 故 
障 问 题 ,一 旦 NameNode 失效 ,将 导致 整个 HDFS 集群 无 法 正常 工作 。 此 外 ,由 于 Hadoop 
平台 的 其 他 框架 如 MapReduce, HBase, Hive 等 ,都 是 依赖 于 HDFS 的 基础 服务 ,因此 
HDFS 失效 将 对 整个 上 层 分 布 式 应 用 造成 严重 影响 。 前 面 讨论 的 Secondary NameNode 可 
以 部 分 解决 这 个 问题 ,但 是 需要 切换 IP, 手 动 执行 相关 切换 命令 ,而 且 checkpoint 的 数据 不 
一 定 是 最 新 的 ,存在 一 致 性 问题 ,不 适合 做 NameNode 的 备用 机 。 除 了 Secondary 
NameNode, 其 他 相对 成 熟 的 解决 方案 还 有 Backup Node 方案 ,DRDB 方案 .AvatarNode 
方案 。 


5. 数据 副本 


HDFS 是 用 来 为 大 数据 提供 可 靠 存储 的 ,这 些 应 用 所 处 理 的 数据 一 般 保存 在 大 文件 中 。 
HDFS 存储 文件 时 ,会 将 文件 分 成 若干 个 块 ,每 个 块 又 会 按照 文件 的 副本 因子 进行 备份 。 

同 副 本 因子 一 样 , 块 的 大 小 也 是 可 以 配置 的 ,并 且 在 创建 后 也 能 修改 。 习 惯 上 会 设置 成 
64MB、128MB 或 256MB( 默 认 是 64MB) .但 是 块 大 小 既 不 能 太 小 也 不 能 太 大 。 

(1) 块 之 所 以 不 能 太 小 .主要 是 因为 以 下 两 个 方面 : 一 是 HDFS 大 多 数 操作 是 在 读 取 
大 文件 ,如 果 块 太 小 ,磁盘 将 会 更 多 地 移动 磁头 ,可 能 使 得 磁盘 寻 道 时 间 长 ,会 降低 数据 的 知 
吐 率 。 二 是 每 个 块 对 应 NameNode 内 存 中 的 一 段 元 数据 , 块 越 小 ,需要 维护 的 数据 块 的 信 
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息 就 越 多 ,NameNode 所 消耗 的 内 存 就 越 多 。 

(2) 块 之 所 以 不 能 太 大 ,主要 是 从 上 层 MapReduce 来 考虑 的 。 一 个 是 每 个 结 点 处 理 的 
数据 量 不 能 太 大 ; 另 一 个 原因 是 JobTracker 会 根据 块 大 小 预 估 TaskTracker 的 处 理 时 间 ， 
超过 预 估 时 间 的 结 点 会 被 当成 故障 结 点 (Dead Node) 。 所 以 如 果 块 太 大 ,处 理 时 间 比 较 大 ， 
而 且 不 好 预 估 。 假 设 某 个 结 点 出 现 故 障 , 系 统 转交 给 其 他 结 点 的 计算 任务 量 也 与 块 大 小 
相关 。 

6. 通信 协议 


HDFS 是 应 用 层 的 分 布 式 文件 系统 , 结 点 之 间 的 通信 协议 都 是 建立 在 TCP/IP 协议 之 
上 的 。HDFS 有 三 个 重要 的 通信 协议 : Client Protocol, Client DataNode Protocol 和 
DataNode Protocol, 

(1) Client Protocol 定义 了 客户 端 和 NameNode 之 间 的 通信 交互 ,其 中 定义 了 常见 的 
文件 操作 .权限 操作 和 文件 的 副本 操作 等 。 这 个 协议 是 基于 RPC 调用 的 ,一 般 是 由 客户 端 
发 起 RPC 请 求 ,NameNode 处 理 后 返回 给 客户 端 。 

(2) Client DataNode Protocol 是 客户 端 和 DataNode 之 间 的 协议 ,用 于 恢复 块 。 

(3) DataNode Protocol 是 DataNode 用 来 和 NameNode 通信 的 协议 , 主要 用 来 发 送 结 
点 的 块 信息 和 负载 信息 。 这 个 协议 也 是 基于 RPC 的 ,NameNode 不 会 主动 发 起 RPC, 而 是 
响应 DataNode 的 RPC 请 求 。 如 果 NameNode 希望 DataNode 执行 某 个 命令 ,也 是 通过 
RPC 的 返回 值 传 给 DataNode。 该 协议 的 主要 方法 有 结 点 注册 发送 心 跳 ,报告 块 位 置 、. 报 
告 块 异常 .获得 时 间 戳 等。 


7. 容错 
HDFS 的 设计 目标 之 一 是 具有 高 容错 性 。 集 群 中 的 故障 主要 有 三 类 , 即 Node Server 
故障 、 网 络 故 障 和 脏 数据 问题 。 


(1) Node Server 故障 又 包括 NameNode 故障 和 DataNode 故障 ,前 面 已 经 提 到 了 
NameNode 故障 的 处 理 , 这 里 就 只 考虑 DataNode 故障 。 一 般 情况 下 ,DataNode 每 隔 3s 就 
向 NameNode 发 送 (通过 RPC 方式 ) 一 次 心跳 信息 ,NameNode 会 定期 检查 DataNode 的 心 
跳 信 息 ,如 果 某 个 DataNode 超过 一 定时 间 (Stale Interval, 一般 是 10min) 没 有 发 送 心跳 信 
息 ,就 认为 这 个 DataNode 已 经 发 生 故 障 。 

(2) 对 于 网 络 故障 ,HDFS 采用 了 与 TCP 协议 类 似 的 处 理 方式 一 一 ACK 报 文 , 即 每 次 
接收 方 收 到 数据 后 都 会 向 发 送 方 返回 一 个 ACK 报 文 ,如 果 没 收 到 ACK 报 文 就 认为 接收 方 
发 生 故 障 或 者 网 络 出 现 故障 。 

(3) 由 于 HDFS 的 硬件 配置 都 是 比较 廉价 的 ,数据 容易 出 错 。 为 了 防止 脏 数据 问题 ， 
HDFS 的 数据 都 配 有 校 验 数 据 , 一 般 采 用 CRC32 校 验 ,每 512 字 节 作为 一 个 chunk( 数 据 
块 ) ,生成 4 字 节 的 checksum( 校 验 和 )。 每 隔 一 定时 间 ,DataNode 会 向 NameNode 发 送 
BlockReport 以 报告 自己 的 块 信息 。 每 次 DataNode 在 BlockReport 操作 之 前 会 先 验证 数据 
块 的 正确 性 ,报告 时 也 只 报告 正确 的 数据 块 。 

NameNode 收 到 BlockReport 后 ,如 果 发 现 某 个 DataNode 没有 上 报 被 认为 是 存储 在 该 
DataNode 的 块 信息 ,就 认为 该 DataNode 的 这 个 块 是 脏 数据 。 











AAH 技术 概论 


8. Hadoop Metrics 插件 


Hadoop Metrics 插件 是 基于 JMX(Java Management Extensions, Java 管理 扩展 ) 实 现 
的 一 个 统计 集群 运行 数据 的 工具 ,能 让 用 户 在 不 重启 集群 的 情况 下 重新 进行 配置 。 从 
Hadoop 0. 20 开始 Metrics 功能 就 默认 启用 了 ,目前 使 用 的 都 是 Hadoop Metrics 2。 
DataNode 和 NameNode 启动 后 都 会 向 Metrics 系统 注册 Metrics 源 , 并 在 运行 时 把 相关 数 
据 提供 给 该 系统 。 集 群 中 所 有 的 Metrics 数据 都 可 以 通过 标准 的 JMX MBean 接口 查询 ,也 
可 以 使 用 jconsole 查看 。 


6.1.6 HDFS 源 代码 结构 


下 面 来 了 解 HDFS 实现 的 源 代码 结构 。HDFS 源 代码 都 在 org. apache. hadoop. hdfs 
包 中 。 
HDFS 的 源 代码 分 布 在 16 个 目录 下 ,可 以 分 成 如 下 4 类。 


1. 基础 包 


基础 包 包 括 工 具 包 和 安全 包 。 其 中 ,hdfs. util 包含 了 一 些 HDFS 实现 需要 的 辅助 数据 
结构 ; hdfs. security. token. block 和 hdfs. security. token. delegation 结合 Hadoop 的 安全 
框架 ,提供 了 安全 访问 HDFS 的 机 制 。 


2. HDFS 实体 实现 包 


HDFS 实体 实现 包 是 代码 分 析 的 重点 ,包含 以 下 8 个 包 : 

hdfs. server. common 包含 了 一 些 NameNode 和 DataNode 共享 的 功能 ,如 系统 升级 、 
存储 空间 信息 等 。 

hdfs. protocol 和 hdfs. server. protocol 提供 了 HDFS 各 个 实体 间 通 过 IPC 交互 的 接口 
的 定义 和 实现 。 

hdfs. server. namenode,hdfs. server. datanode 和 hdfs 分 别 包 含 了 NameNode、DataNode 和 
Client 的 实现 ,是 HDFS 代码 分 析 的 重点 。 

hdfs. server. namenode. metrics 和 hdfs. server. datanode. metrics 实现 了 NameNode 和 
DataNode 上 度量 数据 的 收集 功能 。 度 量 数据 包括 NameNode 进程 和 DataNode 进程 上 事 
件 的 计数 ,如 DataNode 上 就 可 以 收集 到 写 入 字 节 数 、 被 复制 的 块 的 数量 等 信息 。 


3. 应 用 包 


应 用 包 包 括 hdfs. tools 和 hdfs. server. balancer。 
hdfs. tools 查询 HDFS 状态 信息 工具 dfsadmin 文 件 系统 检查 工具 fsck 的 实现 。hdfs. 
server. balancer 是 HDFS 均衡 器 balancer 的 实现 。 


4. WebHDFS 相关 包 


WebHDFS 相关 包 包 括 hdfs. web. resources, hdfs. server. namenode. metrics. web. 


Tesources\hdfs. server. datanode. web. resources 和 hdfs. web 共 4 个 包 。 
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WebHDFS 是 HDFS 1. 0 中 引入 的 新 功能 ,提供 了 一 个 完整 的 .通过 HTTP 访问 
HDFS 的 机 制 。 对 比 只 读 的 文件 系统 .WebHDFS 提供 了 在 HTTP 上 读 写 HDFS 的 能 力 ， 
并 在 此 基础 上 实现 了 访问 HDFS 的 C 客户 端 和 用 户 空 间 文件 系统 。 


6.1.7 HDFS 接口 


接口 是 软件 系统 不 同 组 成 部 分 衔接 的 约定 ,一 个 良好 的 接口 设计 可 以 降低 系统 各 部 分 
的 相互 依赖 ,提高 组 成 单元 的 内 聚 性 ,降低 组 成 单元 间 的 耦合 程度 ,从 而 提高 系统 的 维护 性 
和 扩展 性 。 对 于 HDFS 这 样 一 个 复杂 系统 ,接口 也 可 以 用 来 观察 系统 的 工作 状态 。 


1. 远程 过 程 调 用 接口 





Hadoop 提供 了 一 个 统一 的 远程 过 程 调 用 (Remote Procedure Call,RPC) 机 制 来 处 理 
Client NameNode、NameNode DataNode Client DataNode 之 间 的 通信 。RPC 是 整个 
Hadoop 中 通信 框架 的 核心 。 

如 果 本 地 主机 的 一 个 进程 想 调 用 远程 主机 上 的 一 个 进程 的 某 个 功能 ,其 做 法 如 下 : 

(1) 远程 主机 运行 服务 器 端 ,本 地 主机 运行 客户 端 , 通 常情 况 下 ,远程 主机 的 服务 端 是 
一 直 在 运行 的 。 

(2) 本 地 主机 的 客户 端 通过 网 络 连 接 到 远程 主机 的 指定 端口 .然后 将 要 调用 的 函数 名 
和 调用 参数 传 给 远程 主机 的 服务 端 。 

(3) 远程 主机 接收 到 函数 名 和 调用 参数 时 ,根据 函数 名 找到 这 个 函数 ,然后 根据 调用 参 
数 执行 这 个 函数 ,最 后 把 结果 返回 到 本 地 主机 的 客户 端 。 

RPC 的 工作 机 制 如 图 6-5 所 示 。 


“u sms 2 mestu == 


图 6-5 RPC 的 工作 机 制 


最 简单 的 RPC 可 以 通过 传递 字符 串 的 方式 进行 ,也 就 是 说 ,客户 端 把 要 调用 的 函数 名 
和 调用 参数 都 转换 成 字符 串 ,然后 将 字符 串 传递 给 服务 器 端 ,在 服务 器 端 将 字符 串 解 析出 
来 ,调用 相应 的 函数 计算 ,再 将 结果 以 字符 串 的 方式 返回 给 本 地 主机 客户 端 .客户 端 解析 字 
符 串 获取 返回 值 。 这 种 方式 适应 于 简单 类 型 的 参数 ,如 int( 整 型 )、float( 浮 点 型 )、char( 字 
符 型 ) 等 。 


2. 与 客户 端 相关 接口 


与 客户 端 相关 的 接口 包括 ClientProtocol 和 ClientDataNodeProtocol。 

ClientProtocol: 客户 端 与 NameNode 之 间 的 接口 。 它 是 HDFS 客户 访问 文件 系统 的 
人 入口 ,客户 端 通过 这 个 接口 访问 NameNode. 操 作文 件 或 目录 的 元 数据 信息 ; 读 写 文件 也 必 
须 先 访问 NameNode, 接 下 来 再 和 DataNode 进行 交互 ,操作 文件 数据 ; 另外 ,从 NameNode 
获取 分 布 式 文件 系统 的 一 些 整 体 运行 状态 信息 ,也 是 通过 这 个 接口 进行 的 。 

ClientDataNodeProtocol: 客户 端 与 Data Node 间 的 接口 ,用 于 客户 端 和 DataNode 进行 
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交互 ,这 个 接口 用 得 比较 少 ,客户 端 和 DataNode 间 的 主要 交互 是 通过 流 接口 进行 读 / 写 文 
件数 据 的 操作 。 错 误 发 生 时 ,客户 端 需要 DataNode 配合 进行 恢复 ,或 当 客 户 端 进行 本 地 文 
件 读 优化 时 ,需要 通过 IPC 接口 获取 一 些 信息 。 


3. HDFS 各 服务 器 间 的 接口 





HDFS 各 服务 器 间 的 接口 一 共有 三 个 ,它们 是 DataNodeProtocol, InterDataNodeProtocol 
和 NameNodeProtocol, 这 些 接口 都 定义 在 org. apache. hadoop. hdfs. server. protocol 包 中 。 

DataNodeProtocol: DataNode 与 NameNode 间 的 接口 。 在 HDFS 的 主 从 体系 结构 中 ， 
DataNode 作为 从 结 点 ,不 断 通过 这 个 接口 向 主 结 点 (名 称 结 点 ) 报 告 一 些 信息 ,同步 信息 到 
NameNode; 同时 ,该 接口 的 一 些 方法 、 方 法 的 返回 值 会 带 回 NameNode 指令 ,根据 这 些 指 
令 ,DataNode 或 移动 .删除 或 恢复 本 地 磁盘 上 的 数据 块 ,或 者 执行 其 他 的 操作 。 

InterDataNodeProtocol: DataNode 与 DataNode 间 的 接口 。DataNode 通过 这 个 接口 ， 
和 其 他 DataNode 进行 通信 ,恢复 数据 块 ,保证 数据 的 一 致 性 。 

NameNodeProtocol: NameNode 与 Secondary NameNode、HDFS 均衡 器 之 间 的 接口 。 
Secondary NameNode 会 不 停 地 获取 NameNode 上 某 一 个 时 间 点 的 命名 空间 镜像 和 镜像 的 
变化 日 志 , 然 后 会 合并 得 到 一 个 新 的 镜像 ,并 将 该 结果 发 送 回 NameNode, 在 这 个 过 程 中 ， 
NameNode 会 通过 这 个 接口 ,配合 Secondary NameNode 完成 元 数据 的 合并 。 


6.2 Common 概述 


从 Hadoop 0. 20 版 本 开始 ,Hadoop Core 模块 更 名 为 Common, Common 为 Hadoop 
的 其 他 模块 提供 了 一 系列 文件 系统 和 通用 文件 包 , 主要 包括 系统 配置 工具 Configuration, 
远程 过 程 调用 RPC ,序列 化 机 制 和 Hadoop 抽象 文件 系统 FileSystem 等 。Common 为 在 通 
用 硬件 上 搭建 云 计算 环境 提供 基本 的 服务 ,同时 为 软件 开发 提供 了 API。 如 图 6-6 所 示 为 
Common 在 Hadoop 架构 中 的 位 置 。 





HBase Chukva 








Avro | Zookeeper | Mahout 





Pig | Hive 











MapReduce | HDFS | Yarn 








Common 








图 6-6 Common 在 Hadoop 架构 中 位 置 


Common 模块 结构 如 图 6-7 所 示 。 
下 面 介绍 Common 模块 中 的 主要 程序 包 。 


1. org.apache. hadoop. conf 


该 包 的 作用 是 读 取 集 群 的 配置 信息 ,很 多 配置 数据 都 需要 从 org. apache. hadoop. conf 
中 读 取 。Configuration 是 org. apache. hadoop. conf 包 中 的 主 类 ,Configuration 类 中 包含 了 
10 个 属性 。Hadoop 开放 了 许多 的 get/set 方法 来 获取 和 设置 其 中 的 属性 。 
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|E Package Explorer $ | ag|ə 了 = 


> ËB org.apache. i 
b ÉB org.apache.hadoop.conf 
由 org.apache.hadoop.filecache 
b ÉB org.apache.hadoop.fs 
> ÉB orgapache hadoop 和 ftp 
b ËB org.apache.hadoop.fs.kfs 


b ÉB org.apache.hadoop.fs.permission 
b ÉB org.apache.hadoop.fs:s3 

> ÉB org.apache.hadoop.fs.s3native 

b ËB org.apache.hadoop.fs:shell 

b g org.apache.hadoop.http 

b g org.apache.hadoop.http.lib 

b g org.apache.hadoop.io 





图 6-7 Common 模块 结构 


2. org.apache.hadoop.fs 


该 包 主 要 包括 了 对 文件 系统 的 维护 操作 的 抽象 ,包括 文件 的 存储 和 管理 ,主要 包含 以 下 
子 包 。 

(1) org. apache. hadoop. fs. ftp 提供 了 在 HTTP 协议 上 对 Hadoop 文件 系统 的 访问 。 

(2) org. apache. hadoop. fs. kfs 包含 了 对 kfs 的 基本 操作 。 

(3) org. apache. hadoop. fs. permission 可 以 对 访问 控制 .权限 进行 设置 。 

(4) org. apache. hadoop. fs. s3 和 org. apache. hadoop. fs. s3native 包 , 这 两 个 包 中 定义 
了 对 as3 文件 系统 的 支持 。 


3. org.apache.hadoop.io 


该 包 实现 了 一 个 特有 的 序列 化 系统 , Hadoop 的 序列 化 机 制 具 有 快速 、 紧凑 的 特点 。 
Hadoop 在 1/0 中 的 解压 缩 设计 中 通过 JNI 的 形式 调用 第 三 方 的 压缩 算法 ,如 Google 的 
Snappy 框架 。 


4. org. apache. hadoop. ipc 











该 包 用 于 Hadoop 远程 过 程 调用 的 实现 。Java 的 RPC 最 直接 的 体现 就 是 RMI 的 实 
现 ,RMI 的 实现 是 一 个 简陋 版 本 的 远程 过 程 调用 .但 是 由 于 RMI 的 不 可 定制 性 ,所 以 
Hadoop 根据 自己 的 系统 特点 ,重新 设计 了 一 套 独 有 的 RPC 体系 ,用 了 Java 动态 代理 的 思 
想 ,RPC 的 服务 端 和 客户 端 都 是 通过 代理 获得 方式 取得 的 。 

其 他 包 简 单 描述 如 下 : 

(1) org. apache. hadoop. hdfs 是 Hadoop 的 分 布 式 文件 系统 实现 。 

(2) org. apache. hadoop. mapreduce 是 Hadoop 的 MapReduce 实现 。 

(3) org. apache. hadoop. log 是 Hadoop 的 日 志 帮 助 类 ,实现 估 值 的 检测 和 人 恢复。 

(4) org. apache. hadoop. metrics 用 于 度量 .统计 和 分 析 。 
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(5) org. apache. hadoop. http 和 org. apache. hadoop. net 用 于 对 网 络 相关 的 封装 。 
(6) org. apache. hadoop. util 是 Common 中 的 公共 方法 类 。 


本 章 小 结 


作为 Hadoop 最 重要 的 组 成 模块 ,HDFS 和 Common 在 大 数据 处 理 过 程 中 作用 巨大 。 
简单 地 说 ,在 Hadoop 平台 下 ,HDFS 负责 存储 ,Common 负责 提供 Hadoop 各 个 模块 常用 
的 工具 程序 包 。 

本 章 重点 讲解 了 HDFS 的 特点 、 架 构 、 工 作 原理 ,介绍 了 HDFS 的 源 代码 结构 、HDFS 
的 接口 知识 ,最 后 简单 介绍 了 Common 的 相关 知识 。 通 过 本 章 的 学 习 会 了 解 HDFS 和 
Common 的 理论 基础 。 

【注释 】 

1. 海量 数据 : 是 指 几 百 MB JLE GB 甚至 是 TB、PB 级 规模 的 数据 文件 。 

2. 开源 (Open Source); 开放 源码 的 简称 , 指 那些 源码 可 以 被 公众 使 用 的 软件 ,并 且 此 软件 的 使 用 、 修 
改 和 发 行 也 不 受 许可 证 的 限制 。 

3. APICApplication Programming Interface, 应 用 程序 编程 接口 ): 是 一 些 预先 定义 的 函数 ,目的 是 提 
供应 用 程序 与 开发 人 员 基 于 某 软 件 或 硬件 得 以 访问 一 组 例 程 的 能 力 , 而 又 无 须 访问 源码 ,或 理解 内 部 工作 
机 制 的 细节 。 

4. 通用 硬件 ，Hadoop 的 一 个 特点 就 是 降低 成 本 ,因此 它 对 硬件 的 要 求 不 高 ,不 必要 运行 在 价格 昂贵 
的 硬件 上 , 它 被 设计 成 可 以 运行 在 由 普通 商用 硬件 组 成 的 集群 上 。 由 于 硬件 的 可 靠 性 较 差 ,在 一 个 大 的 
Hadoop 集群 中 结 点 的 故障 率 还 是 比较 高 的 。 这 就 需要 HDFS 在 面 对 这 些 故障 时 被 设计 成 高 容错 性 ,在 运 
行 时 不 被 用 户 感觉 到 明显 的 中 断 。 

5. 数据 集 : 又 称 为 资料 集 、 数 据 集合 或 资料 集合 ,是 一 种 由 数据 所 组 成 的 集合 。 

6. POSIX(Portable Operating System Interface); 即 可 移植 操作 系统 接口 。POSIX 标准 定义 了 操作 系 
统 应 该 为 应 用 程序 提供 的 接口 标准 ,是 IEEE 为 要 在 各 种 UNIX 操作 系统 上 运行 的 软件 而 定义 的 一 系列 
API 标 准 的 总 称 。POSIX 标准 意 在 期 望 获得 源 代 码 级 别 的 软件 可 移植 性 。 

7. 结 点 : 在 网 络 拓扑 学 中 , 结 点 是 网 络 任何 支 路 的 终端 或 网 络 中 两 个 或 更 多 支 路 的 互联 公共 点 。 

8. 系统 命名 空间 : 系统 的 命名 空间 层次 与 现 有 的 大 多 数 文件 系统 类 似 。HDFS 支持 传统 的 层次 化 文 
件 操作 ,例如 支持 文件 的 创建 ,文件 的 删除 .文件 的 移动 或 者 文件 重 命名 。 在 HDFS 中 文件 系统 的 命名 空 
间 是 由 名 字 结 点 来 维护 的 ,名 字 结 点 会 记录 任何 对 文件 系统 命名 空间 或 者 属性 的 改动 。 

9. 硬 链接 : 就 是 一 个 文件 的 一 个 或 多 个 文件 名 。 所 谓 链接 无 非 是 把 文件 名 和 计算 机 文件 系统 使 用 的 
结 点 号 链接 起 来 ,因此 我 们 可 以 用 多 个 文件 名 与 同一 个 文件 进行 链接 ,这 些 文件 名 可 以 在 同一 目录 或 不 同 
目录 。 

10. 软 链接 : 又 叫 符号 链接 ,这 个 文件 包含 了 另 一 个 文件 的 路 径 名 ,可 以 是 任意 文件 或 目录 ,可 以 链接 
不 同文 件 系统 的 文件 。 

11. JAAS(Java Authentication Authorization Service, Java 验证 和 授权 APD: 提供 了 灵活 和 可 伸缩 的 
机 制 来 保证 客户 端 或 服务 器 端的 Java 程序 。JAAS 强调 的 是 通过 验证 谁 在 运行 代码 以 及 他 /她 的 权限 来 
保护 系统 免 受 用 户 的 攻击 。 

12. 集群 : 是 一 组 相互 独立 的 .通过 高 速 网 络 互联 的 计算 机 ,它们 构成 了 一 个 组 ,并 以 单一 系统 的 模式 
加 以 管理 。 一 个 客户 与 集群 相互 作用 时 ,集群 像 是 一 个 独立 的 服务 器 。 集 群 配置 用 于 提高 可 用 性 和 可 缩 
放 性 。 

13. 时 间 截 (timestamp) : 通常 是 一 个 字符 序列 ,唯一 地 标识 某 一 刻 的 时 间 。 数 字 时 间 截 技术 是 数字 
签名 技术 的 一 种 变形 应 用 。 
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14. ACK(Acknowledgement) : 即 确认 字符 ,在 数据 通信 中 ,接收 站 发 给 发 送 站 的 一 种 传输 类 控制 字 
符 ,表示 发 来 的 数据 已 确认 接收 无 误 。 

15. 脏 数据 : 是 指 源 系统 中 的 数据 不 在 给 定 的 范围 内 或 对 于 实际 业务 毫 无 意义 ,或 是 数据 格式 非法 ， 
以 及 在 源 系统 中 存在 不 规范 的 编码 和 含糊 的 业务 逻辑 。 

16. RPC: (Remote Procedure Call Protocol, 远 程 过 程 调用 协议 ) 是 一 种 通过 网 络 从 远程 计算 机 程序 上 
请 求 服务 ,而 不 需要 了 解 底 层 网 络 技术 的 协议 。 

17. IPC(Instruction Per Clock): 即 CPU 每 一 时 钟 周期 内 所 执行 的 指令 多 少 。IPC 代表 了 一 款 处 理 器 
的 设计 架构 ,一 旦 该 处 理 器 设计 完成 之 后 ,IPC 值 就 不 会 再 改变 了 。 

18. JNI(Java Native Interface); 提供 了 若干 的 API 实现 了 Java 和 其 他 语言 的 通信 (主要 是 C 和 C++)。 
从 Javal. 1 开始 ,JNI 标准 成 为 Java 平台 的 一 部 分 , 它 允 许 Java 代码 和 其 他 语言 的 代码 进行 交互 。 
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内 容 与 要 求 


MapReduce 是 一 个 最 先 由 Google 公司 开发 的 分 布 式 计算 框架 , 它 可 以 支持 大 数据 
的 分 布 式 处 理 。MapReduce 是 Hadoop 的 核心 模块 ,承担 了 Hadoop 的 数据 计算 功能 。 

Mapeduce 处 理 大 数据 的 过 程 ,就 是 将 大 数据 分 解 为 成 百 上 千 的 小 数据 ,每 个 或 车 
干 个 小 数据 由 计算 机 集群 中 的 一 台 普 通 计算 机 进行 处 理 并 生成 中 间 结 果 , 然 后 这 些 中 间 
结果 又 由 大 量 的 结 点 进行 合并 形成 最 终结 果 。 

MapReduce 简介 主要 讲解 了 MapReduce 的 功能 和 技术 特征 。 

MapReduce 的 Map 和 Reduce 任务 主要 讲解 了 Map( 映 射 ) 与 Reduce( 化 简 ) 的 原理 
和 流程 。 

MapReduce 架构 和 工作 流程 主要 讲解 了 MapReduce 的 架构 组 成 和 10 个 工作 

MapReduce 编程 源码 范例 主要 讲解 了 MapReduce 在 文本 数据 处 理 过 程 中 统计 词 
频 方面 的 应 用 。 

MapReduce 接口 主要 讲解 了 MapReduce 的 两 个 接口 , 即 编程 接口 层 和 工具 层 。 








重点 、 难 点 





本 章 的 重点 是 Map 和 Reduce 的 原理 和 流程 。 本 章 的 难点 是 MapReduce 的 功能 、 
技术 特征 、 架 构 和 工作 流程 。 
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MapReduce 是 Hadoop 的 核心 模块 ,也 是 一 个 高 性 能 的 分 布 式 计算 框架 ,用 于 对 海量 
数据 进行 并 行 分 析 和 人 处理。 与 传统 数据 仓库 和 分 析 技 术 相 比 , MapReduce 适合 处 理 各 种 类 
型 的 数据 ,包括 结构 化 、 半 结构 化 和 非 结 构 化 数据 。HDFS 在 MapReduce 任务 处 理 过 程 中 
提供 了 对 文件 操作 和 存储 的 支持 ,MapReduce 在 HDFS 的 基础 上 实现 任务 的 分 发 .跟踪 、 执 
行 . 计 算 等 工作 ,并 收集 结果 。 








7.1 MapReduce 简介 


大 数据 来 源 非常 广泛 ,其 数据 格式 多 样 ,如 多 媒体 数据 .图 像 数 据 ,文本 数据 .实时 数据 、 
传感器 数据 等 。 传 统 行列 结构 的 数据 库 结构 已 经 不 能 满足 数据 处 理 的 需求 ,而 MapReduce 
可 以 存放 和 分 析 各 种 原始 数据 格式 。 

大 数据 中 蕴含 着 丰富 的 有 价值 的 数据 ,但 是 因为 大 数据 存放 成 本 过 高 使 得 很 多 公司 放 
弃 了 大 数据 的 存储 和 处 理 ,并 且 新 的 数据 来 源 使 得 数据 处 理 的 问题 更 为 严重 。MapReduce 
使 用 低 成 本 的 常规 服务 器 存储 和 处 理 海量 的 数据 。 


7.1.1 如 何 理解 MapReduce 


MapReduce 是 由 Google 的 Jeffrey Dean 和 Sanjay Ghemawat 开发 的 针对 大 规模 海量 
数据 处 理 的 分 布 式 计算 框架 。MapReduce 处 理 数据 的 两 个 核心 阶段 是 Map (映射 ) 和 
Reduce( 化 简 )。 简 单 来 说 .Map 负责 将 数据 打 散 ,Reduce 负责 对 数据 进行 聚集 。 

下 面 ,我 们 利用 MapReduce 解决 一 个 有 趣 的 扑克 牌 问题 , 即 “ 统 计 54 张 扑 克 牌 中 有 多 
少 张 性, 如 图 7-1 所 示 。 





图 7-1 54 张 扑克 有 牌 中 有 和 多少 张 @ 


最 直观 的 做 法 : 自己 在 54 张 扑 克 牌 中 一 张 一 张 地 检查 并 数 出 13 Fa. 

而 MapReduce 的 做 法 及 步骤 如 下 : 

(1) 给 在 座 的 所 有 牌 友 (比如 4 个 人 ) 尽 可 能 地 平均 分 配 这 54 张 牌 ; 

(2) 让 每 个 牌 友 数 自己 手中 的 牌 有 几 张 是 滞 . 比 如 老 张 是 3 张 . 老 李 是 5 SK. 6 T hh 1 
张 、 老 蒋 是 4 张 ,然后 每 个 牌 友 把 8 的 数目 分 别 汇报 给 你 ; 

(3) 你 把 所 有 牌 友 的 和 数目 加 起 来 ,得 到 最 后 的 结论 一 一 一 共 13 k A. 

这 个 例子 告诉 我 们 ,MapReduce 的 两 个 主要 功能 是 Map 和 Reduce, 
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(1) Map: 把 统计 人 数目 的 任务 分 配给 每 个 牌 友 分 别 计数 。 

(2) Reduce; 每 个 牌 友 不 需要 把 仿 摆 递 给 你 ,而 是 让 他 们 把 各 自 的 狗 改 目 告诉 你 。 

我 们 还 可 以 将 问题 细 化 : 

(1) 把 牌 分 给 多 个 牌 友 并 且 让 他 们 同时 各 自 计 数 ,这 就 是 并 行 计算 。 多 个 牌 友 在 计数 全 
的 过 程 中 并 不 需要 知道 其 他 的 牌 友 在 干什么 ,这 就 是 分 布 式 计算 。 

(2) MapReduce 假设 扑克 牌 是 洗 过 的 (Shuffled) , 上 且 扑 克 牌 分 配 得 尽量 均匀 。 如 果 所 
有 和 部 分 到 了 一 个 玩家 手 上 , 那 他 数 牌 的 过 程 可 能 比 其 他 人 要 慢 很 多 。 

(3) 如 果 牌 友 足 够 多 的 话 ,MapReduce 还 能 够 解决 更 有 趣 的 问题 ,例如 *54 张 扑 克 牌 的 
平均 值 是 多 少 ( 大 ,小 王 分 别 算 0)”MapReduce 可 以 提炼 成 "所 有 扑克 牌 牌 面 的 数值 的 和 ”及 
“一 共有 多 少 张 扑 克 牌 "这 两 个 问题 来 解决 。 显 然 , 用 牌 面 的 数值 的 和 除 以 扑克 牌 的 张 数 就 
得 到 了 平均 值 。 

MapReduce 的 工作 机 制 远 比 我 们 举 的 小 例子 复杂 得 多 ,但 是 基本 思想 是 类 似 的 , 即 通 
过 分 散 计算 来 分 析 海量 数据 。 


7.1.2 MapReduce 功能 和 技术 特征 


MapReduce 通过 抽象 模型 和 计算 框架 把 需要 做 什么 (What need to do) 与 具体 怎么 做 
(How to do) 分 开 了 ,为 程序 员 提 供 了 一 个 抽象 和 高 层 的 编程 接口 和 框架 ,程序 员 仅 需要 关 
心 其 应 用 层 的 具体 计算 问题 , 仅 需 编写 少量 的 处 理应 用 本 身 计 算 问 题 的 程序 代码 。 


1. MapReduce 功能 


MapReduce 是 采用 分 而 治之 的 思想 ,把 对 大 规模 数据 集 的 操作 分 发 给 一 个 主 结 点 管理 
下 的 各 个 分 结 点 共同 完成 ,然后 通过 整合 各 个 结 点 的 中 间 结 果 ,得 到 最 终结 果 。 

MapReduce 实现 了 两 个 功能 ,Map 把 一 个 函数 应 用 于 集合 中 的 所 有 成 员 , 然 后 返回 一 
个 基于 这 个 处 理 的 结果 集 ; Reduce 是 对 多 个 进程 或 者 独立 系统 并 行 执行 ,将 多 个 Map 的 处 
理 结果 集 进行 分 类 和 归纳 。MapReduce 易于 实现 且 扩展 性 强 , 可 以 通过 它 编写 出 同时 在 多 
台 主 机 上 运行 的 程序 。 

以 图 形 归 类 为 例 ,其 功能 示意 图 如 图 7-2 所 示 ,实现 步 又 如 下 。 
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图 7-2 MapReduce 功能 示意 图 
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(1) 首先 使 用 Map 对 输入 的 数据 集 进 行 分 片 ,如 将 一 个 交 和 一 个 @ 分 成 一 个 数据 片 ,将 
个 交 一 个 人 和 一 个 〇 分 成 一 个 数据 片 等 。 
(2) 然后 将 各 种 图 形 进行 归纳 整理 ,如 把 两 个 交 归 成 一 类 ,三 个 〇 归 成 一 类 等 进行 输 
出 ,并 将 输出 结果 作为 Reduce 的 输入 。 
G) 最 后 由 Reduce 进行 聚集 并 输出 各 个 图 形 的 个 数 ,如 交 有 2 个 . 八 有 4 个 等 。 




















2. MapReduce 技术 特征 


目前 MapReduce 可 以 进行 数据 划分 、 计 算 任 务 调度 、 系 统 优 化 及 出 错 检 测 和 恢复 等 操 
作 , 在 设计 上 具有 以 下 三 方面 的 技术 特征 。 

1) 易于 使 用 

通过 MapReduce 这 个 分 布 式 处 理 框架 ,不 仅 能 处 理 大 规模 数据 ,而 且 能 将 很 多 演 琐 的 
细节 隐藏 起 来 。 传 统 编程 时 程序 员 需 要 经 过 长 期 培训 来 熟悉 大 量 编程 细节 ,而 MapReduce 
将 程序 员 与 系统 层 细 节 隔 离开 来 ,即使 是 对 于 完全 没有 接触 过 分 布 式 程序 的 程序 员 来 说 也 
能 很 容易 地 掌握 。 

2) 良好 的 伸缩 性 

MapReduce 的 伸缩 性 非常 好 ,每 增加 一 台 服 务 器 ,就 能 将 该 服务 器 的 计算 能 力 接 人 到 
集群 中 。 并 且 MapReduce 集群 的 构建 大 多 选用 价格 便宜 .易于 扩展 的 低 端 商用 服务 器 , 基 
于 大 量 数据 存储 需要 , 低 端 服务 器 的 集群 远 比 基 于 高 端 服务 器 的 集群 优越 。 

3) 大 规模 数据 处 理 

MapReduce 可 以 进行 大 规模 数据 处 理 , 应 用 程序 可 以 通过 MapReduce 在 超过 1000 个 
以 上 结 点 的 大 型 集群 上 运行 。 


3. MapReduce 的 局 限 


MapReduce 在 最 初 推 出 的 几 年 ,获得 了 众多 的 成 功 案例 ,获得 业界 广泛 的 支持 和 肯定 ， 
但 随 着 分 布 式 系统 集群 的 规模 和 其 工作 负荷 的 增长 , MapReduce 存在 的 问题 逐渐 浮 出 水 
面 ,总 结 如 下 (其 中 的 术语 参见 7.2 W). 

(1) JobTracker 是 MapReduce 的 集中 处 理 点 ,存在 单 点 故障 。 

(2) JobTracker 完成 了 太 多 的 任务 ,造成 了 过 多 的 资源 消耗 , 当 Job 非常 多 的 时 候 , 会 
造成 很 大 的 内 存 开销 ,增加 了 JobTracker 失败 的 风险 ,旧版 本 的 MapReduce 只 能 支持 上 限 
为 4000 结 点 的 主机 。 

(3) 在 TaskTracker 端 .以 Map/Reduce Task 的 数目 作为 资源 的 表示 过 于 简单 ,没有 
考虑 到 CPU 内 存 的 占用 情况 ,如 果 两 个 大 内 存 消 耗 的 Task 被 调度 到 了 一 块 ,很 容易 出 现 
内 存 溢 出 。 

(4) 在 TaskTracker 端 .把 资源 强制 划分 为 Map Task 和 Reduce Task, 如 果 系 统 中 只 
有 Map Task 或 者 只 有 Reduce Task 的 时 候 , 会 造成 资源 的 浪费 。 

(5) 源 代 码 层面 分 析 的 时 候 , 会 发 现代 码 非常 难 读 , 常 常 因为 一 个 Class( 类 ) 做 了 太 多 
的 事情 ,代码 量 达 3000 多 行 ,造成 Class 的 任务 不 清晰 ,增加 Bug 修复 和 版 本 维护 的 难度 。 

(6) 从 操作 的 角度 来 看 , MapReduce 在 如 Bug 修复 、 性 能 提升 和 特性 化 等 并 不 重要 的 
系统 更 新 时 ,都 会 强制 进行 系统 级 别 的 升级 。 更 糟糕 的 是 , MapReduce 不 考虑 用 户 的 喜好 ， 
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D .大 数据 技术 概 闪 
强制 让 分 布 式 集群 中 的 每 一 个 Client 同时 更 新 。 
7.2 MapReduce 的 Map 和 Reduce 任务 
MapReduce 是 大 规模 数据 计算 的 利器 , Map 和 Reduce 是 它 的 主要 思想 , Map 负责 将 


数据 打 散 ,Reduce 负责 对 数据 进行 聚集 ,用 户 只 需要 实现 Map 和 Reduce 两 个 接口 , 即 可 完 
成 TB 级 数据 的 计算 。Map 和 Reduce 的 工作 流程 如 图 7-3 所 示 。 





Input File | 


Map 

















Shuffle Combine, Partition, Sort, Copy, Merge 


图 7-3 Map 和 Reduce 的 工作 流程 














将 Map 和 Reduce 的 工作 流程 及 步骤 简单 概括 如 下 : 

(1) 输入 数据 通过 Split 的 方式 ,被 分 发 到 各 个 结 点 上 (Split 意 为 分 片 ,是 Map 任务 最 
小 的 输入 单位 。 分 片 是 基于 文件 基础 衍生 出 来 的 概念 ,可 通俗 地 理解 成 一 个 文件 可 以 切 分 
为 多 少 个 片段 ,每 个 片段 包括 文件 名 、 开 始 位 置 、 长 度 、 位 于 哪些 主机 等 信息 ); 

(2) 每 个 Map 任务 在 一 个 Split 上 面 进 行 处 理 ; 

(3) Map 任务 输出 中 间 数 据 ; 

(4) 在 Shuffle 过 程 中 , 结 点 之 间 进 行 数据 交换 (Shuffle 意 为 洗 牌 ,一 般 包含 本 地 化 混 
合 , 分 区 、 排 序 , 复 制 及 合并 等 ) ; 

G) 拥有 同样 Key 值 的 中 间 数 据 即 键 值 对 (Key-Value Pair) 被 送 到 同样 的 Reduce {E 
务 中 ( 键 值 对 是 指 Key 和 Value 之 间 的 映射 关系 ,一 个 Key 值 对 应 一 个 Value, 其 中 Value 
的 类 型 和 取 值 范围 等 都 是 任意 的 ); 

(6) Reduce 执行 任务 后 输出 结果 。 

提示 : 前 4 步 为 Map 过程 .后 2 步 为 Reduce 过 程 。 


7.2.1 Map 与 Reduce 


下 面 , 以 求 东 三 省 2016 4Æ 5 H 16 H 14:00 每 个 省 份 的 平均 气温 为 例 (为 使 问题 简化 ， 
每 个 省 只 列举 三 个 城市 ) ,对 Map 任务 和 Reduce 任务 进行 形象 的 阐述 。 


ETES EE _ 


(1) 在 Map 阶段 输入 < Key. Value > 数据 ,其 中 Key 表示 城市 的 名 称 ,Value 表示 所 属 
省 份 ,城市 的 平均 气温 ,如 图 7-4 所 示 。 













= 
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图 7-4 Map 输入 
(2) Map 按 省 份 将 气温 重新 分 组 输出 (排除 城市 名 称 ) ,那么 省 份 作 为 Key 时 ,气温 将 


作为 Value, 如 图 7-5 所 示 。 
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(3) 使 用 Map 的 Shuffle 功能 ,分 组 输出 省 份 Key, 并 得 到 该 省 的 气温 列表 List < Value >, 
如 图 7-6 所 示 。 


~ 


Shuffle Output: <K2 ,ListV2> k- A 








Sh [Key: 吉林 
P| Value: List<16°C, 14°C, 15°C> 
i 


图 7-6 Shuffle 输出 


(4) 将 从 Shuffle 任务 中 获得 的 Key、List < Value > 数据 作为 Reduce 任务 的 输入 数据 ， 
如 图 7-7 所 示 。 


Reduce Input: <K2 ，ListV2> | 
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(5) Reduce 任务 是 数据 逻辑 的 完成 者 ,在 这 里 就 是 计算 各 省 份 的 平均 温度 ,如 图 7-8 


所 示 。 





总 Reduce Output: <K3 ，V3> 
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图 7-8 Reduce 输出 


总 结 一 下 ,MapReduce 对 数据 的 重 塑 过 程 如 下 : 

(1) Map 输入 < K1.V1 >—Map 输出 <K2.V2 >; 

(2) Shuffle 输出 < K2 .ListV2 >; 

(3) Reduce 输入 < K2.List < V2 >>—Reduce 输出 <K3,V3 >, 


7.2.2 Map 任务 原理 


MapReduce 框架 为 每 一 个 Input ë.Split( Input ë. Split 是 指 输入 并 分 片 ) 产 生 一 个 Map 
任务 。 在 Map 任务 拿 到 这 些 分 片 后 ,会 知道 从 哪 开始 读 取 数据 。 
Map 任务 原理 如 图 7-9 所 示 。 





Input&Split 
Mapping 
Outputlist 


图 7-9 Map 任务 原理 
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Map 任务 的 输入 文件 可 视 为 多 个 任意 类 型 的 元 素 组 成 (如 一 个 元 组 或 一 篇 文档 )。 所 
有 Map 任务 的 输入 和 Reduce 任务 的 输出 都 是 键 值 对 的 形式 。 输 入 元 素 在 Map Pñ # ñ f 
用 下 转 成 键 值 对 ,其 中 的 键 和 值 都 可 以 是 任意 类 型 ,Map 将 输入 记录 集 转 换 为 中 间 格 式 记 
录 集 ,这 种 转换 的 中 间 格 式 记录 和 集 不 需要 与 输入 记录 集 的 类 型 一 致 。 

当 所 有 Map 任务 都 成 功 完成 之 后 , 主 控 进程 将 每 个 Map 任务 输出 的 面向 某 个 特定 
Reduce 任务 的 文件 进行 合并 ,并 将 合并 文件 以 键 值 表 对 序列 传 给 该 进程 。 

Map 的 数目 通常 是 由 输入 数据 的 大 小 决定 的 ,一 般 就 是 所 有 输入 文件 的 总 块 数 。Map 
正常 的 并 行规 模 大 致 是 每 个 结 点 (Node) 约 10 一 100 个 Map. X} F CPU 消耗 较 小 的 Map 任 
务 可 以 设 到 300 个 左右 。 由 于 每 个 任务 初始 化 需要 一 定 的 时 间 , 因 此 ,比较 合理 的 情况 是 
Map 执行 的 时 间 至 少 超过 lmin。 这 样 ,如 果 输 入 10TB 的 数据 ,每 个 块 的 大 小 是 128MB. 4 
需要 大 约 82 000 个 Map 来 完成 任务 。 

需要 注意 的 是 ,由 于 每 个 Map 任务 通常 都 只 会 给 出 一 个 键 (Key) 的 键 值 对 ,因此 必须 
进行 分 组 和 聚合 处 理 ( 即 Shuffle 阶段 ) 并 将 结果 传输 给 Reduce 任务 。 


7.2.3 Reduce 任务 原理 


Reduce 任务 是 以 某 种 方式 把 输入 的 一 系列 键 值 表 中 的 值 进行 组 合 , 输 出 键 值 对 序列 。 
其 中 Reduce 任务 接收 到 的 输入 键 是 每 个 键 值 对 中 的 Key. 而 接收 到 的 与 Key 关联 的 值 表 
的 组 合 结果 就 是 值 。 所 有 Reduce 任务 的 输出 结果 最 终 合 并 成 单个 文件 。Reduce 任务 原理 
如 图 7-10 所 示 。 
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Reducing 
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图 7-10 Reduce 任务 原理 


通常 Reduce 函数 都 满足 交换 律 和 结合 律 .也 就 是 说 所 有 需要 组 合 的 值 可 以 按照 任务 
次 序 组 合 ,其 结果 不 变 。 当 Reduce 函数 满足 交换 律 和 结合 律 时 ,就 可 以 将 Reduce 任务 中 
的 部 分 工作 放 到 Map 任务 中 来 完成 。Reduce 将 与 一 个 Key 关联 的 一 组 中 间 数 值 集 化 简 为 
一 个 更 小 的 数值 集 。 用 户 可 以 在 操作 时 设 定 一 个 作业 中 Reduce 任务 的 数目 。 

Reduce 任务 的 输出 通常 是 通过 调用 OutputCollector. collect (WritableComparable、 
Writable) 写 入 文件 系统 ,Reduce 的 输出 是 没有 排序 的 。 应 用 程序 可 以 使 用 Reporter 报告 
进度 . 设 定 应 用 程序 级 别 的 状态 消息 .更 新 计数 器 或 者 仅 是 表明 自己 运行 正常 。 

Reduce 的 数目 建议 是 任务 处 理 最 大 值 与 系数 的 乘积 ,系数 可 以 选择 0.95 或 1.75. Æ 
使 用 0. 95, 所 有 Reduce 可 以 在 Map 一 完成 时 就 立刻 启动 ,开始 传输 Map 的 输出 结果 ; 若 
使 用 1.75, 速 度 快 的 结 点 可 以 在 完成 第 一 轮 Reduce 任务 后 就 开始 第 二 轮 , 这 样 可 以 得 到 比 
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较 好 的 负载 均衡 的 效果 。 虽 然 增加 Reduce 的 数目 会 增加 整个 框架 的 开销 ,但 可 以 改善 负 
载 均 衡 ,降低 由 于 执行 失败 带 来 的 负面 影响 。 


7.3 MapReduce 架构 和 工作 流程 


7.3.1 MapReduce 的 架构 


MapReduce 的 架构 是 MapReduce 整体 结构 与 组 件 的 抽象 描述 ,与 HDFS 类 似 ， 
MapReduce 采用 了 Master/Slave( 主 /从 ) 架 构 , 其 架构 如 图 7-11 所 示 。 
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图 7-11 MapReduce 架构 图 


在 图 7-11 中 ,JobTracker 称 为 Master,TaskTracker 称 为 Slave。 用 户 提交 的 需要 计算 
的 作业 称 为 Job( 作 业 ) ,每 一 个 Job 会 被 划分 成 若干 个 Tasks( 任 务 ) JobTracker 负责 Job 
和 Tasks 的 调度 ,而 TaskTracker 负责 执行 Tasks。 

MapReduce 由 4 个 独立 的 结 点 (node) 组 成 ,分 别 为 Client, JobTracker, TaskTracker 
和 HDFS, 分 别 介绍 如 下 。 

(1) Client; 用 来 提交 MapReduce 作业 ; 

(2) JobTracker: 用 来 初始 化 作业 、 分 配 作 业 并 与 TaskTracker 通信 并 协调 整个 作业 ; 

(3) TaskTracker: 将 分 配 过 来 的 数据 片段 执行 MapReduce 任务 ,并 保持 与 JobTracker 
通信 ; 
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(4) HDFS: 用 来 在 其 他 结 点 间 共 享 作业 文件 。 
7.3.2 MapReduce 工作 流程 


结合 图 7-11, MapReduce 的 工作 流程 可 简单 概括 为 以 下 10 个 工作 步骤 ， 

(1) MapReduce 在 客户 端 启动 一 个 作业 ; 

(2) Client 向 JobTracker 请 求 一 个 JobID; 

(3) Client 将 需要 执行 的 作业 资源 复制 到 HDFS 上 ; 

(4) Client 将 作业 提交 给 JobTracker; 

(5) JobTracker 在 本 地 初始 化 作业 ; 

(6) JobTracker 从 HDFS 作业 资源 中 获取 作业 输入 的 分 割 信息 ,根据 这 些 信息 将 作业 
分 割 成 多 个 任务 ; 

(7) JobTracker 把 多 个 任务 分 配给 在 与 JobTracker 心跳 通信 中 请 求 任务 的 
TaskTracker; 

(8) TaskTracker 接收 到 新 的 任务 之 后 会 首先 从 HDFS 上 获取 作业 资源 ,包括 作业 配 
置信 息 和 本 作业 分 片 的 输入 ; 

(9) TaskTracker 在 本 地 登录 子 JVM; 

(10) TaskTracker 启动 一 个 JVM 并 执行 任务 ,并 将 结果 写 回 HDFS。 





7.4 MapReduce 编程 源码 范例 


Map 函数 和 Reduce 函数 是 交 给 用 户 实现 的 ,这 两 个 函数 定义 了 任务 本 身 。Map 函数 
接受 一 个 键 值 对 ,产生 一 组 中 间 键 值 对 .MapReduce 框架 会 将 Map 函数 产生 的 中 间 键 值 对 
按键 相同 的 值 传递 给 一 个 Reduce 函数 。Reduce 函数 接收 一 个 键 及 相关 的 一 组 值 ,将 这 组 
值 进 行 合 并 产生 一 组 规模 更 小 的 值 (通常 只 有 一 个 或 零 个 值 )。 下 面 以 统计 词 频 的 实例 来 理 
解 这 两 个 函数 。 

例如 ,用 户 有 如 下 文本 文件 : 

文本 1. txt:“ 甲 状 腺 是 准 椎 动物 非常 重要 的 腺 体 ,属于 内 分 泌 器 官 。 它 位 于 有 颈 部 甲状 
软骨 下 方 ,气管 两 劳 。 人 类 的 甲状 腺 形似 蝴蝶 ,犹如 盾 甲 , 故 以 此 命名 。” 

文本 2. txt:“ 甲 状 腺 控制 使 用 能 量 的 速度 、 制 造 蛋 白质 .调节 身 体 对 其 他 荷尔蒙 的 敏感 
性 ,甲状 腺 依靠 制造 甲状 腺 素来 调整 这 些 反 应 。 这 两 者 调控 代谢 ,生长 速率 还 有 调解 其 他 的 
身体 系统 。” 

利用 MapReduce 实现 关键 词 “ 甲 状 腺 ”的 词 频 统计 。 高 层 结构 的 Java 代码 如 下 。 





Map (filename, file- contents): 
// filename: X {F4 
// file- contents: 文件 内 容 
for each "甲状 腺 ” in file- contents: 
emit ("甲状 腺 ",1) 
Reduce (word, values): 
// word: 单 词 
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// values: 数值 列表 

sum = 0 
for each value in values: 

Sum = sum + value 
emit ("甲状 腺 ", sum) 
以 下 分 别 通 过 Map 和 Reduce 来 分 析 统 计 词 频 。 
在 实际 操作 时 ,首先 要 考虑 停 词 的 存储 问题 。 因 为 停 词 比较 少 ,所 以 选择 将 它们 全 部 存 

储 到 内 存 中 。 


1. Map 任务 说 明 


对 于 Map 传 进来 的 每 一 行文 本 ,首先 将 标点 符号 全 部 替换 成 空格 ,然后 再 循环 分 析 每 
一 个 单词 ,如 果 这 个 单词 不 包括 在 停 词 集合 中 , 则 将 其 Key 设 为 单词 本 身 , 值 设置 为 1。 

Map 函数 接收 的 键 是 文件 名 , 值 是 文件 的 内 容 , Map 逐个 遍历 单词 ,每 遇 到 一 个 单词 
“甲状 腺 ”, 就 产生 一 个 中 间 键 值 对 <* 甲 状 腺 ”,1 >, 这 表示 又 找到 了 一 个 单词 "甲状腺 ”。 
MapReduce 把 键 相同 (都 是 单词 “甲状 腺 ”) 的 键 值 对 传 给 Reduce 函数 。 


2. Reduce 任务 说 明 
Reduce 函数 接收 的 键 就 是 单词 甲状腺 ”, 数 值 列表 中 的 值 都 是 1, 个 数 等 于 键 为 甲状 


腺 ”的 键 值 对 的 个 数 ,然后 将 这 些 1 累加 就 得 到 单词 甲状腺 "的 出 现 次 数 ,结果 为 5。 最 后 
这 些 单词 的 出 现 次 数 “5” 会 被 写 到 用 户 定义 的 位 置 ,存储 到 底层 的 分 布 式 存储 系统 。 


7.5 MapReduce 接口 


MapReduce 提供 了 一 个 简单 强大 的 接口 ,通过 这 个 接口 ,可 以 实现 海量 数据 的 并 发 和 
分 布 式 计算 。 

MapReduce 接口 模型 位 于 应 用 程序 层 和 MapReduce 执行 器 之 间 , 可 以 将 其 分 为 编程 
接口 层 和 工具 层 两 层 , 如 图 7-12 所 示 。 
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第 一 层 : 编程 接口 层 
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图 7-12 MapReduce 接口 体系 结构 
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第 一 层 是 最 基本 的 编程 接口 层 , 主 要 有 5 个 可 编程 组 件 ,分 别 是 InputFormat、 Map, 
Partitioner.Reduce 和 OutputFormat。 Hadoop 自 带 了 很 多 直接 可 用 的 InputFormat、 
Partitioner 和 OutputFormat ,通常 用 户 只 需 编 写 Map 和 Reduce 即 可 。 

实现 Map 和 Reduce 方法 有 4 个 参数 ,分 别 为 Key, Value, OuputCollector 和 Reporter, H 
中 Key 控制 输入 ; Value 是 输入 的 迭代 器 ,可 以 遍历 所 有 的 Value, 相当 于 一 个 列表 ; 
OuputCollector 用 于 收集 输出 ,每 次 收集 都 是 Key-Value 的 形式 ; Reporter 用 来 报告 运行 
状态 及 调试 时 使 用 。 

第 二 层 是 工具 层 ,位 于 编程 接口 层 之 上 ,主要 是 为 了 方便 用 户 编写 复杂 的 MapReduce 
程序 。 在 该 层 中 ,主要 提供 了 4 个 编程 工具 包 , 分 别 为 JobControl、ChainMap/Reduce、 
Hadoop Streaming 和 Hadoop Pipes。 


1. JobControl 


MapReduce 中 经 常 需 要 用 到 多 个 Job, 而 且 多 个 Job 之 间 需 要 设置 一 些 依赖 关系 ,多 个 
Job 除了 用 于 维护 子 任务 的 配置 信息 ,还 维护 子 任务 的 依赖 关系 ,JobControl 能 方便 用 户 编 
写 有 依赖 关系 的 作业 ,把 所 有 的 子 任务 作业 加 入 到 JobControl 中 ,控制 整个 作业 流程 。 

















2. ChainMap/Reduce 


能 将 具有 复杂 依赖 关系 的 多 个 MapReduce Job 串联 起 来 ,方便 用 户 编写 链 式 作业 。 有 
许多 的 数据 处 理工 作 包 括 针 对 一 条 记录 的 预 处 理 和 后 处 理 , 如 进行 医学 关键 词 检索 的 时 候 ， 
首先 要 去 除 掉 athe 等 定 冠 词 ,然后 再 转换 成 单词 格式 (Vaginitis、the Vaginitis, Vagina’ s 
等 不 同 格式 统一 转换 为 Vaginitis) ,最 后 进行 检索 处 理 。 


3. Hadoop Streaming 


允许 使 用 任何 编程 语言 实现 的 程序 在 MapReduce 中 使 用 ,方便 用 户 采 用 非 Java 语言 
编写 作业 。 其 开发 效率 高 ,方便 已 有 程序 向 Hadoop 平台 移植 ,但 Hadoop Streaming 默认 
只 能 处 理 文本 数据 ,Streaming 中 的 Map 和 Reduce 默认 也 只 能 向 标准 输出 写 数据 ,不 能 方 
便 地 处 理 多 路 输出 。 


4. Hadoop Pipes 


不 同 于 使 用 标准 输入 和 输出 来 实现 Map 代码 和 Reduce 代码 之 间 的 Hadoop 
Streaming. Hadoop Pipes 是 专门 为 C/C++ 程序 员 编 写 MapReduce 程序 提供 的 工具 包 。 


本 章 小 结 


MapReduce 是 Hadoop 最 重要 的 组 成 模块 之 一 。MapReduce 由 Map 和 Reduce 两 部 
分 用 户 程序 组 成 ,利用 框架 在 计算 机 集群 上 根据 需求 运行 多 个 程序 实例 来 处 理 各 个 子 任务 ， 
然后 再 对 结果 进行 归并 输出 。 在 实际 的 工作 环境 中 .MapReduce 的 分 布 式 处 理 框架 常用 于 
分 布 式 Grep、 分 布 式 排 序 、Web 访问 日 志 分 析 、 反 向 索引 构建 ,文档 聚 类 、 机 器 学 习 、 数 据 分 
析 、 基 于 统计 的 机 器 翻译 和 生成 整个 搜索 引擎 的 索引 等 大 规模 数据 处 理工 作 , 并 且 已 经 在 很 
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多 国内 知名 的 互联 网 公司 得 到 广泛 的 应 用 。 

本 章 重 点 讲解 了 MapReduce 的 功能 ,技术 特征 、 原 理 、 架 构 和 工作 流程 等 方面 的 知识 。 
通过 本 章 的 学 习 , 读 者 将 会 了 解 并 掌握 MapReduce 的 理论 知识 ,为 大 数据 方向 的 深入 学 习 
打下 初步 的 基础 。 

【注释 】 

1. 集群 : 一 组 相互 独立 的 .通过 高 速 网 络 互联 的 计算 机 ,它们 构成 了 一 个 组 ,并 以 单一 系统 的 模式 加 
以 管理 。 
2. 结 点 : 在 网 络 拓扑 学 中 , 结 点 是 网 络 任何 支 路 的 终端 或 网 络 中 两 个 或 更 多 支 路 的 互联 公共 点 。 

3. 进程 : 计算 机 中 的 程序 关于 某 数据 集合 上 的 一 次 运行 活动 ,是 系统 进行 资源 分 配 和 调度 的 基本 单 
位 ,是 操作 系统 结构 的 基础 。 

4. 线程 : 线程 是 程序 中 一 个 单一 的 顺序 控制 流程 。 进 程 内 一 个 相对 独立 的 、 可 调度 的 执行 单元 ,是 系 
统 独立 调度 和 分 派 CPU 的 基本 单位 。 在 单个 程序 中 同时 运行 多 个 线程 完成 不 同 的 工作 , 称 为 多 线程 。 

5. 心跳 机 制 : 定时 发 送 一 个 自 定义 的 结构 体 (心跳 包 ) ,让 对 方 知道 自己 “在 线 ”, 以 确保 连接 的 有 效 性 
的 机 制 。 

6. JVM(Java Virtual Machine): 即 Java 虚拟 机 ,一 个 虚构 出 来 的 计算 机 ,通过 在 实际 的 计算 机 上 仿真 
模拟 各 种 计算 机 功能 。 

7. 容错 : 在 故障 存在 的 情况 下 计算 机 系统 不 失效 ,仍然 能 够 正常 工作 的 特性 。 

8. Bris: 在 信息 检索 中 ,为 节省 存储 空间 和 提高 搜索 效率 ,在 处 理 自然 语言 数据 (或 文本 ) 之 前 或 之 后 
会 自动 过 滤 掉 某 些 字 或 词 ,这 些 字 或 词 即 被 称 为 Stop Words( 停 词 )。 与 其 他 词 相 比 , 停 词 没 有 什么 实际 含 
X. W a the,is,at which on 等 。 

9. 迭代 器 : 是 程序 设计 的 软件 设计 模式 ,可 在 容器 (如 链表 或 阵列 等 ;上 遍历 的 接口 ,设计 人 员 无 须 关 
心 容器 的 内 容 。 

10. HTTP; 是 一 个 客户 端 和 服务 器 端 请 求 和 应 答 的 标准 ,所 有 的 WWW 文件 都 必须 遵守 这 个 标准 。 
设计 HTTP 最 初 的 目的 是 为 了 提供 一 种 发 布 和 接收 HTML 页 面 的 方法 。 

11. 内 存 溢出 : 是 指 应 用 系统 中 存在 无 法 回收 的 内 存 或 使 用 的 内 存 过 多 ,最 终 使 得 程序 运行 要 用 到 的 
内 存 大 于 虚拟 机 能 提供 的 最 大 内 存 。 
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内 容 与 要 求 


本 章 介绍 了 NoSQL 的 相关 基础 知识 和 4 种 类 型 数据 管理 方法 (包括 键 值 存储 、 列 
存储 \ 面 向 文档 存储 和 图 形 存储 ) 的 特点 、 实 现 数据 管理 的 基本 原理 及 典型 工具 。 

在 NoSQL 基础 知识 中 介绍 了 NoSQL 的 产生 和 特点 ,并 介绍 了 一 些 NoSQL 的 基 
本 知识 ,包括 一 致 性 策略 、 分 区 与 放置 策略 、 复 制 与 容错 技术 和 缓存 技术 等 。 

在 NoSQL 的 种 类 中 介绍 了 NoSQL 的 4 种 主要 分 类 。 

在 典型 的 NoSQL 工具 中 针对 4 种 类 型 的 数据 存储 方式 ,分 别 介绍 了 其 典型 工具 。 


重点 、 难 点 


本 章 的 重点 是 掌握 NoSQL 的 基本 知识 以 及 分 类 。 本 章 的 难点 是 4 种 不 同类 型 的 
典型 工具 的 工作 原理 。 














NoSQL 越 来 越 多 地 被 认为 是 关系 型 数据 库 的 可 行 蔡 代 品 ,特别 适用 于 大 数据 的 存储 。 
传统 的 关系 型 数据 库 因 其 对 数据 模式 的 约束 程度 高 和 对 分 布 式 存储 的 支持 度 差 等 因素 ,已 
经 无 法 满足 复杂 海量 的 数据 存储 。 针 对 目前 数据 表现 出 的 数量 大 、 结 构 复杂 、 格 式 多 样 , 存 
储 要 求 不 一 致 等 特点 ,许多 新 兴 的 打破 关系 模型 的 数据 存储 方案 应 运 而 生 , 人们 将 其 称 为 
NoSQL. 通常 情况 下 ,人 们 把 NoSQL 解释 为 非 结 构 化 或 非 关 系 型 数据 管理 方法 ,其 实 更 加 
准确 的 解释 应 该 是 NoSQL— Not Only SQL, 即 不 仅仅 是 关系 型 数据 。 

如 果 说 Hadoop 是 一 个 产品 ,那么 NoSQL 就 是 一 项 技术 。 实 际 上 ,和 处 理 常规 数据 一 
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样 ,任何 为 处 理 大 数据 而 服务 的 产品 也 都 要 选择 符合 实际 情况 的 数据 管理 方式 。 由 于 网 络 
上 数据 量 激增 ,传统 关系 型 数据 库 不 能 满足 生活 ,生产 需要 . 越 来 越 多 的 人 开始 放弃 严整 . 规 
矩 的 关系 模型 ,另辟蹊径 地 去 拓展 研发 新 型 的 数据 存储 方式 ,如 键 值 存储 、 列 存储 、 面 向 文档 
存储 和 图 形 存储 等 ,这 些 都 属于 NoSQL 的 范畴 。 

HDFS 在 Hadoop 中 扮演 数据 存储 的 角色 , 它 只 能 对 非 结 构 化 文件 存储 ,而 NoSQL 可 
以 应 用 于 结构 化 、 半 结构 化 和 非 结 构 化 数据 存储 。 从 Hadoop 存储 层 的 搭建 来 说 ,关系 型 数 
PEPE NoSQL 数据 库 和 HDFS 分 布 式 文件 系统 三 种 存储 方式 都 是 需要 的 。 具 体 的 业务 应 
用 要 根据 实际 的 情况 选择 不 同 的 存储 模式 ,但 是 为 了 业务 的 存储 和 读 取 的 方便 ,我 们 可 以 对 
存储 层 进一步 地 封装 ,形成 一 个 统一 的 共享 存储 服务 层 ,简化 操作 。 

举 一 个 例子 ,Hadoop 中 的 HBase 正 是 采用 NoSQL 中 的 列 存储 方式 对 数据 进行 管理 
的 。 在 Hadoop 的 架构 中 ,Hbase 利用 HDFS 文件 系统 中 存放 的 数据 来 解决 特定 的 数据 处 
理 问 题 。 这 期 间 ,HDFS 为 HBase 提供 了 高 可 靠 性 的 底层 存储 支持 ,MapReduce 为 HBase 
提供 了 高 性 能 的 计算 能 力 。 

NoSQL 拥有 很 多 的 家 族 成 员 ,NoSQL 的 中 文 网 站 如 图 8-1 所 示 , 在 这 里 我 们 可 以 看 到 
NoSQL 的 多 个 种 类 及 各 自 的 典型 产品 。 
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图 8-1 NoSQL 中 文 网 站 
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O .大 元 据 技 术 概论 


8.1 NoSOL 基础 知识 


8.1.1 NoSQL 的 产生 


NoSQL 泛 指 非 关系 型 的 数据 管理 技术 。 随 着 大 数据 时 代 的 到 来 及 互联 网 Web 2.0 网 
站 的 兴起 ,传统 的 关系 型 数据 库 在 应 付 海 量 数据 存储 和 读 取 , 以 及 超大 规模 、 高 并 发 的 
Web 2. 0 纯 动态 网 站 的 数据 处 理 方面 已 经 显得 力不从心 ,同时 也 暴露 出 很 多 难以 克服 的 问 
题 。 而 非 关系 型 的 数据 管理 方法 则 由 于 其 本 身 的 特点 得 到 了 非常 迅速 的 发 展 。NoSQL 技 
术 的 产生 就 是 为 了 应 对 这 一 挑战 ,在 大 数据 应 用 难题 方面 更 是 显得 尤为 突出 。 

随 着 Web 2.0 的 快速 发 展 , 非 关系 型 分布 式 数据 存储 得 到 了 快速 的 发 展 ,NoSQL 的 
概念 随即 在 2009 年 被 提出 ,相对 于 广泛 应 用 的 关系 型 数据 库 来 说 ,这 一 概念 无 疑 是 一 种 全 
新 的 思维 方式 ,对 传统 的 数据 管理 方式 是 一 次 颠覆 性 的 改变 。 

NoSQL 有 很 多 种 存储 方式 ,包括 Key-Value 存储 、 面 向 文档 存储 、 列 存储 、 图 存储 和 
XML 数据 存储 等 。 其 实在 NoSQL 的 概念 被 提出 之 前 ,这 些 数 据 存储 方式 就 已 经 被 用 于 各 
种 系统 当中 ,只 是 很 少 被 用 于 Web 互联 网 应 用 中 。 

NoSQL 兴起 的 主要 原因 主要 是 传统 的 关系 型 数据 库 在 网 络 数据 存 取 上 遇 到 了 瓶颈 。 
不 得 不 说 ,传统 的 关系 型 数据 库 具 有 卓越 的 性 能 、 高 稳定 性 , 且 使 用 简单 功能 强大 。 这 使 得 
传统 的 关系 型 数据 库 在 20 世纪 90 年 代 , 网 站 访问 数据 量 不 是 很 大 的 情况 下 ,发 挥 了 令 人 瞩 
目的 作用 。 

在 互联 网 应 用 中 ,大 部 分 的 关系 型 数据 库 都 是 I/O 密集 型 的 ,而 在 大 数据 情况 下 ,无疑 
加 大 了 系统 在 1/O 方面 的 压力 , 表 结构 更 改 困难 .扩展 性 差 成 了 关系 型 数据 库 难 以 逾越 的 
鸿沟 。 同 时 ,网 站 上 也 经 常会 出 现 需要 存储 一 些 大 文本 字段 的 情况 ,这 就 会 导致 数据 库 表 的 
大 规模 扩张 ,进而 影响 数据 库 恢 复 时 的 速度 。 

面临 这 些 大 数据 管理 的 困扰 ,上 面 提 到 的 几 种 非 关 系 型 数据 管理 方式 越 来 越 被 人 们 重 
视 , 并 迅速 发 展 , 我 们 把 这 些 有 别 于 传统 关系 型 数据 库 的 数据 管理 技术 统称 为 NoSQL 
技术 。 


8.1.2 NoSQL 的 特点 


NoSQL 技术 之 所 以 能 够 在 大 数据 冲击 互联 网 的 情况 下 脱颖而出 ,主要 是 因为 其 具有 以 
下 特点 。 


1. 易 扩 展 性 


尽管 NoSQL 数据 库 种 类 繁多 ,但 是 它们 都 有 一 个 共同 的 特点 ,就 是 没有 了 关系 型 数据 
库 中 的 数据 与 数据 之 间 的 关系 。 很 显然 , 当 数 据 之 间 不 存在 关系 时 ,数据 的 可 扩展 性 就 变 得 
可 行 了 。 


2. 数据 量 大 .性 能 高 
NoSQL 数据 库 都 具有 非常 高 的 读 写 性 能 .尤其 在 大 数据 量 下 同样 表现 优秀 。 这 得 益 于 
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它 的 无 关系 性 ,数据 之 间 的 结构 简单 。 一 般 情况 下 ,关系 型 数据 库 使 用 的 是 Cache 在 “ 表 ” 这 
一 层面 的 更 新 ,是 一 种 大 粒度 的 Cache 更 新 , 当 网 络 上 的 数据 发 生 频繁 交互 时 ,就 表现 出 了 
明显 劣势 。 而 NoSQL 使 用 的 是 Cache 在 “记录 ”层面 的 更 新 ,是 一 种 细 粒 度 的 Cache 更 新 ， 
所 以 NoSQL 在 这 个 方面 上 也 显示 了 较 高 的 性 能 特点 。 


3. 灵活 的 数据 模型 


由 于 NoSQL 无 须 事先 为 要 存储 的 数据 建立 字段 ,所 以 在 应 用 中 随时 可 以 存储 自 定义 
的 数据 格式 。 而 在 关系 数据 库 里 ,增删 字段 是 一 件 非常 麻烦 的 事情 ,尤其 对 数据 量 非常 大 的 
表 而 言 ,随时 更 改 表 结构 几乎 是 无 法 实现 的 。 而 这 一 点 在 大 数据 量 的 Web 2. 0 时 代 尤 为 
重要 。 

4. 高 可 用 性 


NoSQL 在 不 太 影 响 性 能 的 情况 ,就 可 以 方便 地 实现 高 可 用 的 架构 ,如 Cassandra, 
HBase 模型 等 。 


8.1.3 NoSQL 的 技术 基础 


那么 ,NoSQL 技术 对 大 数据 的 管理 是 怎么 实现 的 呢 ? 其 中 又 要 遵循 哪些 基本 原则 呢 ? 
在 这 里 ,我们 为 读者 在 大 数据 的 一 致 性 策略 、 大 数据 的 分 区 与 放置 策略 、 大 数据 的 复制 与 容 
错 技术 及 大 数据 的 缓存 技术 等 方面 进行 介绍 。 


1. 大 数据 的 一 致 性 策略 


在 大 数据 管理 的 众多 方面 .数据 的 一 致 性 理论 是 实现 对 海量 数据 进行 管理 的 最 基本 的 
理论 。 学 习 这 部 分 内 容 有 利于 读者 对 本 章 内 容 的 阅读 和 深化 理解 。 

分 布 式 系统 的 CAP 理论 是 构建 NoSQL 数据 管理 的 基石 。CAP, 即 一 致 性 (Consistency)、 
可 用 性 (Availability) 和 分 区 容错 性 (Partition Tolerance) ,如 图 8-2 所 示 。 

1) 一 致 性 

一 致 性 是 指 在 分 布 式 系统 中 的 所 有 数据 备份 .在 同一 时 刻 均 为 同样 的 值 。 也 就 是 当 数 
据 执行 更 新 操作 时 ,要 保证 系统 内 的 所 有 用 户 读 取 到 的 数据 是 相同 的 。 

2) 可 用 性 

可 用 性 是 指 在 系统 中 任何 用 户 的 每 一 个 操作 均 能 在 一 定 的 时 间 内 返回 结果 ,即便 当 集 
群 中 的 部 分 结 点 发 生 故障 时 ,集群 整体 仍 能 响应 客户 端的 读 写 请 求 。 这 里 要 强调 “在 一 定时 
间 内 ”, 而 不 是 让 用 户 遥 遥 无 期 地 等 待 。 

3) 分 区 容错 性 

以 实际 效果 而 言 .分 区 相当 于 对 通信 的 时 限 要 求 。 系 统 如 果 不 能 在 时 限 内 达成 数据 一 
致 性 ,就 意味 着 发 生 了 分 区 的 情况 .必须 就 当前 操作 在 一 致 性 和 可 用 性 之 间 做 出 选择 。 

从 上 面 的 解释 不 难看 出 ,系统 不 能 同时 满足 一 致 性 、 可 用 性 和 分 区 容错 性 这 三 个 特性 ， 
在 同一 时 间 只 能 满足 其 中 的 两 个 .如 图 8-3 所 示 。 因 此 系统 设计 者 必须 在 这 三 个 特性 中 做 
出 抉择 。 
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图 8-2 CAP 理论 三 个 特性 图 8-3 CAP 理论 三 个 特性 之 间 的 关系 


2. 大 数据 的 分 区 与 放置 策略 


在 大 数据 时 代 , 如 何 有 效 地 存储 和 人 处理 海量 的 数据 显得 尤为 重要 。 如 果 使 用 传统 方法 
处 理 这 些 数 据 ,所 消耗 的 时 间 代 价 将 十 分 巨大 ,这 是 人 们 无 法 接受 的 ,所 以 必须 打破 传统 的 
将 所 有 数据 都 存放 在 一 处 ,每 次 查找 、 修 改 数据 都 必须 遍历 整个 数据 集合 的 方法 。 数 据 分 区 
技术 与 放置 策略 的 出 现 正 是 为 了 解决 数据 存储 空间 不 足 及 如 何 提高 数据 库 性 能 等 方面 问 
题 的 。 

1) 大 数据 分 区 技术 

通俗 地 讲 , 数 据 分 区 其 实 就 是 “化 整 为 零 ”, 通 过 一 定 的 规则 将 超大 型 的 数据 表 分 割 成 若 
干 小 块 来 分 别处 理 。 表 进行 分 区 时 需要 使 用 分 区 键 来 标志 每 一 行 属于 哪 一 个 分 区 ,分 区 键 
以 列 的 形式 保存 在 表 中 。 

数据 分 区 可 以 提高 数据 的 可 管理 性 ,改善 数据 库 性 能 和 数据 可 用 性 ,缩小 了 每 次 数据 查 
询 的 范围 ,并 且 在 对 数据 进行 维护 时 ,可 以 只 针对 某 一 特定 分 区 ,大 幅 提高 数据 维护 的 效率 。 

下 面 介 绍 几 种 常见 的 数据 分 区 算法 。 

(1) 范围 分 区 

范围 分 区 是 最 早出 现 的 数据 分 区 算法 ,也 是 最 为 经 典 的 一 个 。 所 谓 范围 分 区 ,就 是 将 数 
据 表 内 的 记录 按照 某 个 属性 的 取 值 范围 进行 分 区 。 

(2) 列表 分 区 

列表 分 区 主要 应 用 于 各 记录 的 某 一 属性 上 的 取 值 为 一 组 离散 数值 的 情况 , 且 数 据 集合 
中 该 属性 在 这 些 离散 数值 上 的 取 值 重复 率 很 高 。 采 用 列表 分 区 时 ,可 以 通过 所 要 操作 的 数 
据 直 接 查找 到 其 所 在 分 区 。 

(3) 哈 希 分 区 

哈 希 分 区 需要 借助 哈 希 函数 ,首先 把 分 区 进行 编号 ,然后 通过 哈 希 函数 来 计算 确定 分 区 
内 存储 的 数据 。 这 种 方法 要 求 数据 在 分 区 上 的 分 布 是 均匀 的 。 

以 上 三 种 分 区 算法 的 特点 和 适用 范围 各 异 ,在 选择 使 用 时 应 充分 考虑 实际 需求 和 数据 
表 的 特点 ,这 样 才 能 真正 发 挥 数 据 分 区 在 提高 系统 性 能 上 的 作用 。 

2) 大 数据 放置 策略 

为 解决 海量 数据 的 放置 问题 ,涌现 了 很 多 数据 放置 的 算法 ,大 体 上 可 以 分 为 两 大 类 : 顺 
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序 放置 策略 和 随机 放置 策略 。 采 用 顺序 放置 策略 是 将 各 个 存储 结 点 看 成 是 逻辑 有 序 的 ,在 
对 数据 副本 进行 分 配 时 先 将 同一 数据 的 所 有 副本 编号 ,然后 采用 一 定 的 映射 方式 将 各 个 副 
本 放置 到 对 应 序号 的 结 点 上 ; 随机 放置 策略 通常 是 基于 某 一 哈 希 函数 来 实现 对 数据 的 放置 
的 ,所 以 这 里 所 谓 的 随机 其 实 也 是 有 规律 的 ,很 多 时 候 称 其 为 伪 随 机 放置 策略 。 


3. 大 数据 的 复制 与 容错 技术 


在 大 数据 时 代 , 每 天 都 产生 需要 处 理 的 大 量 数据 ,在 处 理 数据 的 过 程 中 ,难免 会 有 差错 ， 
这 可 能 会 导致 数据 的 改变 和 丢失 。 为 了 避免 这 些 数据 错误 的 出 现 , 必 须 对 数据 进行 及 时 的 
备份 ,这 就 是 数据 复制 的 重要 性 。 同 时 ,一旦 出 现 数据 错误 ,系统 还 要 具备 故障 发 现 及 处 理 
故障 的 能 力 。 

数据 复制 技术 在 处 理 海 量 数据 过 程 中 虽然 是 必 不 可 少 的 ,但 是 ,对 数据 进行 备份 也 要 付 
出 相应 的 代价 。 首 先 ,数据 的 备份 带 来 了 大 量 的 时 间 代 价 和 空间 代价 ; 其 次 ,为 了 减少 时 间 
和 空间 上 的 代价 ,研究 人 员 投 入 大 量 的 时 间 、 人 力 和 物力 来 研发 提升 新 的 数据 复制 策略 ; 另 
外 ,在 数据 备份 的 过 程 中 往往 会 出 现 意 想不到 的 差错 ,此 时 就 需要 数据 容错 技术 和 相应 的 故 
障 处 理 方案 进行 辅助 。 

构成 分 布 式 系 统 的 计算 机 五 花 八 门 ,每 台 计算 机 又 是 由 各 式 各 样 的 软 硬 件 组 成 的 ,所 以 
在 整个 系统 中 可 能 随时 会 出 现 故障 或 错误 。 这些 故 障 和 错误 往往 是 随机 产生 的 ,用 户 无 法 
做 到 提前 预知 ,甚至 是 当 问 题 发 生 时 都 无 法 及 时 察觉 。 如 果 一 个 系统 能 够 对 无 法 预期 的 软 
硬件 故障 做 出 适当 的 对 策 和 应 变 措施 ,那么 就 可 以 说 这 个 系统 具备 一 定 的 容错 能 力 。 

系统 故障 主要 可 以 分 为 以 下 几 类 ,如 表 8-1 所 示 。 


表 8-1 分 布 式 环境 下 的 系统 故障 类 型 
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TY 故障 子 类 M B iñ X 
. EARMOED 但 停 机 前 工作 正常 
AKRAN IR £ EEIE MES T DRE 
EELE IR 2 nT PLUM R Ñ 09325 Fi 2 
停机 型 导演 服务 器 完全 停机 
| 服务 器 对 输入 的 请 求 没有 出 应 
失职 故障 人 服务 名 无 法 接收 信件 
ERIR 服务 器 无 法 发 送信 伯 
服务 器 对 服务 请 求 做 出 铺 误 反应 
应 答 故 障 SPREE A 
RETENE 服务 器 偏离 正确 的 运行 轨迹 
TTE 服务 器 反应 迟缓 .超出 规定 的 时 间 问 了 
随意 故障 服务 器 在 任意 时 间 产 生 的 随意 错误 





容错 是 建立 在 完 余 的 基础 之 上 的 : 宛 余 主要 包括 以 下 4 类 。 
(1) 硬件 宛 余 : 指 附加 额外 的 处 理 器 、1/O 设备 等 。 

(2) 软件 元 余 : 指 附 加 软件 模块 的 额外 版 本 等 。 

(3) AEIR: 如 使 用 了 额外 位 数 的 错误 检测 代码 等 。 
(4) 时 间 元 余 : 如 用 来 完成 系统 功能 的 额外 时 间 等 。 
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处 理 故 障 的 基本 方法 有 主动 复制 .被 动 复制 和 半 主 动 复 制 。 所 谓 主动 复制 指 的 是 所 有 
的 复制 模块 协同 进行 ,并 且 状 态 紧密 同步 。 被动 复制 是 指 只 有 一 个 模块 为 动态 模块 ,其 他 模 
块 的 交互 状态 由 这 一 模块 的 检查 单 定期 更 新 。 半 主动 复制 是 前 两 种 的 混合 方法 ,所 需 的 恢 
复 开 销 相对 较 低 。 





4. 大 数据 的 缓存 技术 


单机 的 数据 库 系统 引入 缓存 技术 是 为 了 在 用 户 和 数据 库 之 间 建 立 一 层 缓存 机 制 , 把 经 
常 访 问 的 数据 常 驻 于 内 存 缓冲 区 ,利用 内 存 高 速 读 取 的 特点 来 提高 用 户 对 数据 查询 的 效率 。 
在 分 布 式 环境 下 ,由 于 组 成 系统 的 各 个 结 点 配置 和 使 用 的 数据 库 系 统 及 文件 系统 不 尽 相 同 ,要 
想 在 这 样 复 杂 的 环境 下 提高 对 海量 数据 的 查询 效率 ,仅仅 依靠 单机 的 缓存 技术 就 行 不 通 了 。 

与 单机 的 缓存 技术 目的 相同 ,分 布 式 缓存 技术 的 出 现 也 是 为 了 提高 系统 的 数据 查询 性 
能 。 另 外 ,为 整个 系统 建立 一 层 缓冲 ,也 便于 在 不 同 结 点 之 间 进 行 数据 交 换 。 分 布 式 缓存 可 
以 横 跨 多 个 服务 器 ,所 以 可 以 灵活 地 进行 扩展 。 

从 图 8-4 中 不 难看 出 ,如 果 各 种 .NET 应 用 .Web 服务 和 网 格 计算 等 应 用 程序 在 短 时间 
内 集中 频繁 地 访问 数据 库 服 务 器 ,很 有 可 能 会 导致 其 瘫痪 而 无 法 工作 。 如 果 在 应 用 程序 和 
数据 库 之 间 加 上 一 道 缓冲 屏障 则 可 以 解决 这 一 问题 。 





ASPNET 应 用 Web 服 务 网 格 计算 











分 布 式 缓存 集群 


一 ” 直 谈 直 写 “~ 








数据 库 服务 器 主 框架 服务 器 








图 8-4 分 布 式 系统 数据 读 取 示 意图 


分 布 式 环境 下 的 数据 缓存 技术 具有 如 下 特点 。 

1) 高 性 能 

当 传 统 数据 库 面临 大 规模 数据 访问 时 ,磁盘 1⁄O 往往 成 为 性 能 瓶颈 ,从 而 导致 过 高 的 
响应 延迟 。 分 布 式 缓存 将 高 速 内 存 作为 数据 对 象 的 存储 介质 ,数据 以 Key-Value 形式 存储 ， 
理想 情况 下 可 以 获得 DRAM 级 的 读 写 性 能 。 

2) 动态 扩展 性 

分 布 式 缓存 支持 弹性 扩展 .通过 动态 增加 或 减少 结 点 应 对 变化 的 数据 访问 负载 ,提供 可 
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预测 的 性 能 与 扩展 性 ,同时 最 大 限度 地 提高 资源 利用 率 。 

3) 高 可 用 性 

可 用 人 性 包含 数据 可 用 性 与 服务 可 用 性 两 方面 。 分 布 式 缓存 基于 宛 余 机 制 实现 高 可 用 
性 ,无 单 点 失效 (Single Point of Failure) ,支持 故障 的 自动 发 现 , 透 明 地 实施 故障 切换 ,不 会 
因 服 务 器 故障 而 导致 缓存 服务 中 断 或 数据 丢失 。 动 态 扩展 时 自动 均衡 数据 分 区 ,同时 保障 
缓存 服务 持续 可 用 。 

4) 易 用 性 

分 布 式 缓存 提供 单一 的 数据 与 管理 视图 ,动态 扩展 或 失效 恢复 时 无 需 人 工 配 置 、 自 动 选 
取 备 份 结 点 且 多 数 缓存 系统 提供 了 图 形 化 的 管理 控制 台 , 便 于 统一 维护 。 








8.2 NoSQL 的 种 类 


为 了 解决 传统 关系 型 数据 库 无 法 满足 大 数据 需求 的 问题 ,目前 涌现 出 了 很 多 种 类 型 的 
NoSQL 数据 库 技 术 。NoSQL 数据 库 种 类 之 所 以 如 此 众多 ,其 部 分 原因 可 以 归结 于 CAP 
理论 。 

根据 上 一 节 介 绍 过 的 CAP 理论 ,在 一 致 性 、 可 用 性 和 分 区 容错 性 这 三 者 中 通常 只 能 同 
时 实现 两 者 。 不 同 的 数据 集 及 不 同 的 运行 时 间 规 则 迫使 我 们 采取 不 同 的 解决 方案 。 各 类 数 
据 库 技 术 针 对 的 具体 问题 也 有 所 区 别 。 数 据 自 身 的 复杂 性 及 系统 的 可 扩展 能 力 都 是 需要 认 
真 考虑 的 重要 因素 。NoSQL 数据 库 通 常 分 成 4 类 : 键 值 (Key-Value) 存 储 、 列 存储 
(Column-Oriented) ,文档 (Document-Oriented) 存 储 和 图 形 存储 (Graph-Oriented)。 表 8-2 
列举 出 了 4 种 类 型 NoSQL 的 特点 及 典型 产品 。 

表 8-2 4 种 类 型 NoSQL 的 特点 及 典型 产品 














存储 类 型 特 性 典型 工具 
键 值 存储 可 以 通过 键 快速 查询 到 值 , 值 无 需 符合 特定 格式 Redis 
列 存储 可 存储 结构 化 和 半 结 构 化 数据 ,对 某 些 列 的 高 频 查询 有 很 好 的 ee 
1/0 优势 
文档 存储 | 数据 以 文档 形式 存储 ,没有 固定 格式 CouchDB、MongoDB 
图 形 存储 以 图 形 的 形式 存储 数据 及 数据 之 间 的 关系 Neodj 








在 下 面 的 部 分 里 ,将 对 这 4 种 不 同类 型 的 数据 处 理 方法 就 原理 、 特 点 和 使 用 方面 分 别 做 
出 比较 详细 的 介绍 。 


8.2.1 键 值 存储 


Key-Value 键 值 数据 模型 是 NoSQL 中 最 基本 的 、 最 重要 的 数据 存储 模型 。Key-Value 
的 基本 原理 是 在 Key 和 Value 之 间 建 立 一 个 映射 关系 .类似 于 喻 希 函数 。Key-Value 数据 
模型 和 传统 关系 数据 模型 相 比 有 一 个 根本 的 区 别 , 就 是 在 Key-Value 数据 模型 中 没有 模式 
的 概念 。 在 传统 关系 数据 模型 中 ,数据 的 属性 在 设计 之 初 就 被 确定 下 来 了 ,包括 数据 类 型 、 
取 值 范围 等 。 而 在 Key-Value 模型 中 ,只 要 制定 好 Key 与 Value 之 间 的 映射 , 当 遇 到 一 个 
Key 值 时 ,就 可 以 根据 映射 关系 找到 与 之 对 应 的 Value. 其 中 Value 的 类 型 和 取 值 范围 等 属 
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性 都 是 任意 的 ,这 一 特点 决定 了 其 在 处 理 海量 数据 时 具有 很 大 的 优势 。 
8.2.2 列 存储 


列 存储 是 按 列 对 数据 进行 存储 的 ,在 对 数据 进行 查询 (Select) 的 过 程 中 非常 有 利 , 与 传 
统 的 关系 型 数据 库 相 比 , 可 以 在 查询 效率 上 有 很 大 的 提升 。 

列 存储 可 以 将 数据 存储 在 列 族 中 。 存 储 在 一 个 列 族 中 的 数据 通常 是 经 常 被 一 起 查询 的 
相关 数据 。 例 如 ,如 果 有 一 个 “住院 患者 "类 ,人 们 通常 会 同时 查询 患者 的 住院 号 、 姓 名 和 性 
别 , 而 不 是 他 们 的 过 敏 史 和 主治 医生 。 这 种 情况 下 ,住院 号 ,姓名 和 性 别 就 会 被 放 入 一 个 列 
族 中 ,而 过 敏 史 和 主治 医生 信息 则 不 应 该 包含 在 这 个 列 族 中 。 

在 传统 的 RDBMS 中 也 有 基于 列 的 存储 方式 ,与 之 相 比 , 列 存储 的 数据 模型 具有 支持 不 
完整 的 关系 数据 模型 .适合 规模 巨大 的 海量 数据 、 支 持 分 布 式 并 发 数据 处 理 等 特点 。 总 的 来 
讲 , 列 存储 数据 库 具有 模式 灵活 、 修 改 方便 、 可 用 性 高 、 可 扩展 性 强 的 特点 。 


8.2.3 面向 文档 存储 


面向 文档 存储 是 IBM 最 早 提出 的 , 它 是 一 种 专门 用 来 存储 管理 文档 的 数据 库 模 型 。 面 
向 文档 数据 库 是 由 一 系列 自 包 含 的 文档 组 成 的 ,这 意味 着 相关 文档 的 所 有 数据 都 存储 在 该 
文档 中 ,而 不 是 关系 数据 库 的 关系 表 中 。 事 实 上 ,面向 文档 的 数据 库 中 根本 不 存在 表 、 行 、 列 
或 关系 ,这 意味 着 它们 是 与 模式 无 关 的 ,不 需要 在 实际 使 用 数据 库 之 前 定义 严格 的 模式 。 它 
与 传统 的 关系 型 数据 库 和 20 世纪 50 年 代 的 文件 系统 管理 数据 的 方式 相 比 ,都 有 很 大 的 区 
别 。 下 面 就 具体 介绍 它们 的 区 别 。 

在 古老 的 文件 管理 系统 中 ,数据 不 具备 共享 性 ,每 个 文档 只 对 应 一 个 应 用 程序 ,也 就 是 
即使 是 多 个 不 同 应 用 程序 都 需要 相同 的 数据 ,也 必须 各 自 建立 属于 自己 的 文件 。 而 面向 文 
档 数据 库 虽 然 是 以 文档 为 基本 单位 ,但 是 仍然 属于 数据 库 范畴 ,因此 它 支 持 数据 的 共享 。 这 
就 大 大 减少 了 系统 内 的 数据 元 余 , 节 省 了 存储 空间 .也 便于 数据 的 管理 和 维护 。 

在 传统 关系 型 数据 库 中 ,数据 被 分 割 成 离散 的 数据 段 ,而 在 面向 文档 数据 库 中 ,文档 被 
看 作 是 数据 处 理 的 基本 单位 。 所 以 ,文档 可 以 很 长 也 可 以 很 短 ,复杂 或 是 简单 都 可 以 ,不 必 
受到 像 在 关系 型 数据 库 中 结构 的 约束 。 但 是 ,这 两 者 之 间 并 不 是 相互 排斥 的 ,它们 之 间 可 以 
相互 交换 数据 ,从 而 实现 相互 补充 和 扩展 。 

例如 ,如 果 某 个 文档 需要 添加 一 个 新 字段 ,那么 在 文档 中 仅 需 包 含 该 字段 即 可 ,而 不 需 
要 对 数据 库 中 的 结构 做 出 任何 改变 。 所 以 ,这 样 的 操作 丝毫 不 会 影响 到 数据 库 中 其 他 任何 
文档 。 因 此 ,文档 不 必 为 没有 值 的 字段 存储 空 数据 值 。 

假如 在 关系 数据 库 中 ,需要 4 张 表 来 储存 数据 : 一 个 Person 表 、 一 个 Company 表 、 一 个 
Contact Details 表 和 一 个 用 于 存储 名 片 本 身 的 表 。 这 些 表 都 有 严格 定义 的 列 和 键 , 并 且 使 
用 一 系列 的 连接 (Join) 组 装 数据 。 虽 然 这 样 做 的 优势 是 每 段 数 据 都 有 一 个 唯一 真实 的 版 
本 ,但 这 为 以 后 的 修改 带 来 不 便 。 此 外 .也 不 能 修改 其 中 的 记录 以 用 于 不 同 的 情况 。 例 如 ， 
一 个 人 可 能 有 手机 号 码 , 也 有 可 能 没有 。 当 某 个 人 没有 手机 号 码 时 ,那么 在 名 片上 不 应 该 显 
示 “ 手 机 : 没有 ”, 而 是 忽略 任何 关于 手机 的 细节 。 这 就 是 面向 文档 存储 和 传统 关系 型 数据 
库 在 处 理 数 据 上 的 不 同 。 很 显然 ,由 于 没有 固定 模式 ,面向 文档 存储 显得 更 加 灵活 。 
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在 面向 文档 的 数据 库 中 ,每 个 名 片 都 存储 在 各 自 的 文档 中 ,并 且 每 个 文档 都 可 以 定义 它 
需要 使 用 的 字段 。 因 此 ,对 于 没有 手机 号 码 的 人 而 言 , 就 不 需要 给 这 个 属性 定义 具体 值 ,而 
对 于 有 手机 号 码 的 人 , 则 根据 他 们 的 意愿 定义 该 值 。 

面向 文档 数据 库 和 关系 数据 库 的 另 一 个 重要 区 别 就 是 面向 文档 数据 库 不 支持 连接 。 因 
此 ,如 在 典型 工具 CouchDB 中 就 没有 主键 和 外 键 , 没 有 基于 连接 的 键 。 这 并 不 意味 着 不 能 
从 CouchDB 数据 库 获取 一 组 关系 数据 。CouchDB 中 的 视图 允许 用 户 为 未 在 数据 库 中 定义 
的 文档 创建 一 种 任意 关系 。 这 意味 着 用 户 能 够 获得 典型 的 SQL 联合 查询 的 所 有 好 处 ,但 又 
不 需要 在 数据 库 层 预定 义 它 们 的 关系 。 

一 定 要 注意 ,虽然 面向 文档 数据 库 的 操作 方式 在 处 理 大 数据 方面 优 于 关系 数据 库 , 但 这 
并 不 意味 着 面向 文档 数据 库 就 可 以 完全 替代 关系 数据 库 ,而 是 为 更 适合 这 种 方式 的 项 目 提 
供 一 种 更 佳 的 选择 ,如 wikis、 博 客 和 文档 管理 系统 。 


8.2.4 图 形 存储 


图 形 存储 是 将 数据 以 图 形 的 方式 进行 存储 。 在 构造 的 图 形 中 ,实体 被 表示 为 结 点 ,实体 
与 实体 之 间 的 关系 则 被 表示 为 边 。 其 中 最 简单 的 图 形 就 是 一 个 结 点 ,也 就 是 一 个 拥有 属性 
的 实体 。 关 系 可 以 将 结 点 连接 成 任意 结构 .那么 ,对 数据 的 查询 就 转化 成 了 对 图 的 遍历 。 图 
形 存储 最 卓越 的 特点 就 是 研究 实体 与 实体 间 的 关系 ,所 以 图 形 存储 中 有 丰富 的 关系 表示 ,这 
在 NoSQL 成 员 中 是 独一无二 的 。 

在 具体 的 情况 下 ,可 以 根据 算法 从 革 个 结 点 开始 ,按照 结 点 之 间 的 关系 找到 与 之 相关 联 
的 结 点 。 例 如 , 想 要 在 住院 患者 的 数据 库 中 查 接 * 负 责 外 科 15 床 患 者 的 主治 医生 和 主管 护 
是 谁 ", 这 样 的 问题 在 图 形 数据 库 中 就 很 容易 得 到 解决 。 

下 面 ,我 们 利用 一 个 实例 来 说 明 在 关系 复杂 的 m 
情况 下 ,图 存储 较 关系 型 存储 的 优势 。 在 一 部 电影 == == 
中 ,演员 常常 有 主 .配角 之 分 ,还 要 有 投资 人 .导演 、 l 
特效 等 人 员 的 参与 。 在 关系 模 理 中 ,这 些 都 被 抽象 DE 
H Person 类 型 ,存放 在 同一 个 数据 表 中 。 但 是 , 现 Oqa Ti 
实 的 情况 是 ,一 位 导演 可 能 是 其 他 电影 或 者 电视 剧 


的 演员 ,更 可 能 是 歌手 ,甚至 是 某 些 影视 公司 的 投资 “t OR 
Da 配角 


者 。 在 这 个 实例 中 ,实体 和 实体 间 存 在 多 个 不 同 的 














关系 ,如 图 8-5 所 示 。 = = 
在 关系 型 数据 库 中 ,要 想 表达 这 些 实体 及 实体 演唱 
间 的 联系 ,我 们 首先 需要 建立 一 些 表 ,如 表示 人 的 图 8-5 实体 及 实体 间 关 系 


表 、 表 示 电 影 的 表 、 表 示 电 视 剧 的 表 、 表 示 影 视 公 司 
的 表 等 。 要 想 研究 实体 与 实体 之 间 的 关系 ,就 要 对 表 建 立 各 种 联系 ,如 图 8-6 所 示 。 由 于 数 
据 库 需要 通过 关联 表 来 间接 地 实现 实体 间 的 关系 ,这 就 导致 数据 库 的 执行 效能 下 降 , 同 时 数 
据 库 中 的 数量 也 会 急剧 上 升 。 

除了 性 能 之 外 , 表 的 数量 也 是 一 个 非常 让 人 头疼 的 问题 。 刚 刚 我 们 仅仅 是 举 了 一 个 具 
有 4 个 实体 的 例子 : 人 ,电影 ,电视 剧 .影视 公司 。 现 实生 活 中 的 例子 可 不 是 这 么 简单 。 不 
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难看 出 , 当 需 要 描述 大 量 关 系 时 ,传统 的 关系 型 数据 库 显 得 不 堪 重负 , 它 更 擅长 的 是 实体 较 

多 但 关系 简单 的 情况 。 而 对 于 一 些 实体 间 关 系 比较 复杂 的 情况 ,高 度 支持 关系 的 图 形 存储 

才 是 正确 的 选择 。 它 不 仅仅 可 以 为 我 们 带 来 运行 性 能 的 提升 ,更 可 以 大 大 提高 系统 开发 效 


率 ,减少 维护 成 本 。 
Eur 
Ce] 


图 8-6 关系 模型 中 的 表 及 表 间 联系 


在 需要 表示 多 对 多 关系 时 ,我 们 常常 需要 创建 一 个 关联 表 来 记录 不 同 实体 的 多 对 多 
关系 ,而 且 这 些 关 联 表 常 常 不 用 来 记录 信息 。 如 果 两 个 实体 之 间 拥 有 多 种 关系 ,那么 我 们 就 
需要 在 它们 之 间 创 建 多 个 关联 表 。 而 在 一 个 图 形 数据 库 中 ,我 们 只 需要 标明 两 者 之 间 存 在 
着 不 同 的 关系 ,例如 用 DirectBy 关系 指向 电影 的 导演 ,或 用 ActBy 关系 来 指定 参与 电影 拍 
摄 的 各 个 演员 。 同 时 在 ActBy 关系 中 ,我 们 更 可 以 通过 关系 中 的 属性 来 表示 其 是 否 是 该 电 
影 的 主演 。 而 且 从 上 面 所 展示 的 关系 的 名 称 上 可 以 看 出 ,关系 是 有 向 的 。 如 果 和 希望 在 两 个 
结 点 集 间 建立 双向 关系 ,我 们 就 需要 为 每 个 方向 定义 一 个 关系 。 这 两 者 的 比较 如 图 8-7 
所 示 o 

关系 型 数据 库 


film(FK) 


person(FK) 




















director(FK) 







图 形 数据 库 


DirectedBy 
Film Person 


ActBy(isLead) 





图 8-7 ”关系 模型 与 图 形 存储 的 比较 


8.3 典型 的 NoSOL 工具 


由 于 大 数据 时 代 刚 刚 到 来 ,基于 各 类 数据 模型 开发 的 数据 库 系 统 层出不穷 ,各 个 公司 机 
构 之 间 的 竞争 十 分 激烈 。 这 一 节 将 介绍 目前 实际 应 用 中 比较 典型 的 几 个 NoSQL 工具 。 
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8.3.1 Redis 


Redis 是 一 个 开源 的 典型 Key-Value 数据 库 。 它 支持 存储 的 Value 类 型 比 传统 的 关系 
型 数据 库 更 多 ,包括 String( 字 符 串 )、Hash( 哈 希 )、List( 链 表 )、Set CEA) A Zset( 有 序 集 
合 )。 这 些 数据 类 型 都 支持 push/pop, add/remove 及 取 交 和 集 、 并 集 和 差 集 等 很 多 更 丰富 的 
操作 ,而 且 这 些 操 作 都 是 原子 性 的 。 在 此 基础 上 ,Redis 支持 各 种 不 同方 式 的 排序 。 

为 了 保证 效率 ,Redis 将 数据 缓存 在 内 存 中 ,并 周期 性 地 把 更 新 的 数据 写 入 磁盘 或 者 把 
修改 操作 写 入 追加 的 记录 文件 中 ,并 且 在 此 基础 上 实现 了 主 从 同步 。 

Redis 的 外 围 由 一 个 键 、 值 映射 的 字典 构成 。 与 其 他 非 关 系 型 数据 库 主 要 不 同 在 于 : 
Redis 中 值 的 类 型 不 仅 限于 字符 串 , 还 支持 字符 串 列 表 、 无 序 不 重复 的 字符 串 集合 .有 序 不 
重复 的 字符 串 集 合 及 键 和 值 都 为 字符 串 的 哈 希 表 。 

值 的 类 型 决定 了 值 本 身 支持 的 操作 。Redis 支持 不 同 无 序 . 有 序 的 列表 ,无 序 . 有 序 的 

合 间 的 交集 、 并 集 等 高 级 服务 器 端 原子 操作 。 总 的 来 讲 ,Redis 具有 Value 类 型 丰富 、 数 
据 操 作 方 法 众多 、 内 存 数据 持久 化 的 特点 。 

目前 Redis 的 最 新 版 本 为 3. 2.0, 用 户 可 以 在 Redis 官网 http://redis. io/download 上 
获取 最 新 的 版 本 代码 。Redis 可 以 在 Linux 和 Mac OS X 等 操作 系统 下 运行 使 用 ,其 中 
Linux 为 主要 推荐 的 操作 系统 。 虽 然 官方 没有 提供 支持 Windows 的 版 本 ,但 是 微软 开发 并 
维护 一 个 Win-64 的 Redis 端口 。Redis 的 使 用 界面 如 图 8-8 所 示 。 
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图 8-8 Redis 使 用 界面 


8.3.2 Bigtable 


Bigtable 是 Google 在 2004 年 开始 研发 的 一 个 分 布 式 结构 化 数据 存储 系统 ,运用 按 列 
存储 数据 的 方法 ,是 一 个 未 开源 的 系统 。 目 前 .已 经 有 超过 百 余 个 项 目 或 服务 是 由 Bigtable 
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来 提供 技术 支持 的 ,如 Google Analytics. Google Finance, Writely, Personalized Search 和 
Google Earth 等 。 尽 管 这 些 项 目 在 需求 上 千差万别 ,但 是 Bigtable 在 性 能 上 还 是 比较 好 地 
满足 了 它们 的 要 求 。Bigtable 的 许多 设计 思想 还 被 应 用 在 很 多 其 他 的 NoSQL 数据 库 中 。 
BigTable 制定 了 一 种 有 趣 的 数据 模型 ,其 基本 思想 是 将 各 列 数 据 进 行 排序 存储 。 数 据 按 值 
的 范围 分 布 在 多 台 机 器 上 ,数据 更 新 操作 有 严格 的 一 致 性 保证 。 

Bigtable 不 支持 完整 的 关系 数据 模型 ,相反 ,Bigtable 为 客户 提供 了 简单 的 数据 模型 , 利 
用 这 个 模型 ,客户 可 以 动态 控制 数据 的 分 布 和 格式 , 即 对 Big Table 而 言 , 数 据 是 没有 格式 
的 ,用 户 可 以 自己 去 定义 。 数 据 的 下 标 是 行 和 列 的 名 称 ,可 以 是 任意 的 字符 串 。 在 读 取 数 据 
的 时 候 , 为 了 提高 读 取 效率 ,可 以 把 具有 相同 前 级 的 数据 一 次 性 读 取 出 来 ,这 些 前 级 相同 的 
数据 表示 它们 存放 的 位 置 比较 接近 ,即位 置 相关 性 。 

Bigtable 将 存储 的 数据 都 视 为 字符 串 , 但 是 Bigtable 本 身 不 去 解析 这 些 字符 串 , 客 户 程 
序 通常 会 在 把 各 种 结构 化 或 者 半 结 构 化 的 数据 串 行 到 这 些 字符 串 里 。 通 过 仔细 选择 数据 的 
模式 ,客户 可 以 控制 数据 的 位 置 相 关 性 。 最 后 ,可 以 通过 BigTable 的 模式 参数 来 控制 数据 
是 存放 在 内 存 中 还 是 硬盘 上 。 

Bigtable 数据 库 的 架构 由 主 服务 器 和 分 服务 器 构成 ,如 图 8-4 所 示 。 如 果 把 数据 库 看 
成 是 一 张大 表 , 那 么 可 将 其 划分 为 许多 基本 的 小 表 , 这 些小 表 就 称 为 Tablet, 是 Bigtable 中 
最 小 的 处 理 单位 。Bigtable 主要 包括 三 个 主要 部 分 : 一 个 主 服务 器 、 多 个 Tablet 服务 器 和 
链接 到 客户 端的 程序 库 。 主 服务 器 负责 将 Tablet 分 配 到 Tablet 服务 器 ,检测 新 增 和 过 期 
的 Tablet 服务 器 ,平衡 Tablet 服务 器 之 间 的 负载 .GFS 垃圾 文件 的 回收 .数据 模式 的 改变 
(如 创建 表 ) 等 。Tablet 服务 器 负责 处 理 数 据 的 读 写 ,并 在 Tablet 规模 过 大 时 进行 拆 分 。 
图 8-9 中 的 Google WorkQueue 是 一 个 分 布 式 的 任务 调度 器 ,主要 用 来 处 理 分 布 式 系统 队 
列 分 组 和 任务 调度 ,负责 故障 处 理 和 监控 ; GFS 负责 保存 Tablet 数据 及 日 志 ; Chubby fi 
责 帮助 主 服务 器 发 现 Tablet 服务 器 , 当 Tablet 服务 器 不 响应 时 , 主 服务 器 就 会 通过 扫描 
Chubby 文件 获取 文件 锁 , 如 果 获 取 成 功 就 说 明 Tablet 服务 器 发 生 了 故障 , 主 服务 器 就 会 重 
做 Tablet 服务 器 上 的 所 有 Tablet。 
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图 8-9 Bigtable 的 系统 架构 


Bigtable 数据 库 主 要 具有 以 下 特点 : 
(1) 适合 大 规模 海量 数据 ,PB 级 数据 。 
(2) 分 布 式 、 并 发 数据 人 处理, 效率 极 高 。 


<<< 


(3) 易于 扩展 ,支持 动态 伸缩 。 

(4) 适用 于 廉价 设备 。 

O 适合 于 读 操作 ,不 适合 写 操作 。 
(6) 不 适用 于 传统 关系 型 数据 库 。 





8.3.3 CouchDB 


CouchDB 是 一 个 开源 的 面向 文档 的 数据 管理 系统 。Couch 即 Cluster Of Unreliable 
Commodity Hardware, 反 映 了 CouchDB 的 目标 具有 高 度 可 伸缩 性 ,提供 了 高 可 用 性 和 高 可 
靠 性 ,即使 运行 在 容易 出 现 故障 的 硬件 上 也 是 如 此 。CouchDB 最 初 是 用 C++ 编写 的 ,在 
2008 年 4 月 ,这 个 项 目 转移 到 Erlang/OTP 平台 进行 容错 测试 。Erlang 语言 是 一 种 并 发 性 
的 函数 式 编程 语言 ,可 以 说 它 是 因 并 发 而 生 , 因 大 数据 云 计算 而 热 ,OTP 是 Erlang 的 编程 
框架 ,是 一 个 Erlang 开发 的 中 间 件 。 

CouchDB 是 用 Erlang 开发 的 面向 文档 的 数据 库 系统 ,是 完全 面向 Web 的 ,截至 2014 
年 10 月 最 新 版 本 为 CouchDB 1.6.1。CouchDB 可 以 安装 在 大 部 分 操作 系统 上 ,包括 Linux 
和 Mac OS X。 尽 管 目前 还 不 正式 支持 Windows, 但 现在 已 经 开始 着 手 编写 Windows 平台 
的 非 官 方 二 进 制 安 装 程序 。CouchDB 可 以 从 源 文件 安装 ,也 可 以 使 用 包 管 理 器 安装 ,是 一 
个 顶级 的 Apache Software Foundation 开源 项 目 , 并 允许 用 户 根据 需求 使 用 修改 和 分 发 该 
软件 。 

传统 的 关系 数据 库 管 理 系 统 有 时 使 用 并 发 锁 来 管理 并 发 性 ,从 而 防止 其 他 客户 机 访问 
某 个 客户 机 正在 更 新 的 数据 。 这 就 防止 了 多 个 客户 机 同时 更 改 相 同 的 数据 ,但 对 于 多 个 客 
户 机 同时 使 用 一 个 系统 的 情况 ,数据 库 在 确定 哪个 客户 机 应 该 接收 锁 并 维护 锁 队 列 的 次 序 
时 会 遇 到 困难 。 

CouchDB 的 文档 更 新 模型 是 无 锁 的 。 客 户 端 应 用 程序 加 载 文档 ,应 用 变更 ,再 将 修改 
后 的 数据 保存 到 服务 器 主机 上 ,这 样 就 完成 了 文档 编辑 。 如 果 一 个 客户 端 试图 对 文档 进行 
修改 ,而 此 时 其 他 客户 端 也 在 编辑 相同 的 文档 ,并 优先 保存 了 修改 ,那么 该 客户 端 在 保存 时 
将 会 返回 编辑 冲突 (Edit Conflict) 错 误 。 为 了 解决 更 新 冲突 ,可 以 获取 到 最 新 的 文档 版 本 ， 
重新 修改 后 再 尝试 更 新 。 文 档 更 新 操作 ,包括 对 文档 的 添加 、 编 辑 和 删除 具有 原子 性 ,要 么 
全 部 成 功 ,要 么 全 部 失败 。 数 据 库 永远 不 会 出 现 部 分 保存 或 者 部 分 编辑 的 文档 。 

作为 一 个 面向 文档 的 数据 管理 工具 ,CouchDB 主要 具有 如 下 特点 。 

(1) CouchDB 是 分 布 式 的 数据 库 ,可 以 把 存储 系统 分 布 到 台 物 理 的 结 点 上 ,并 且 能 很 
好 地 协调 和 同步 结 点 之 间 的 数据 读 写 一 致 性 。 这 当然 也 得 靠 Erlang 的 并 发 特性 才能 做 到 。 
对 于 基于 Web 的 大 规模 文档 应 用 ,分 布 式 可 以 让 它 不 必 像 传统 的 关系 数据 库 那 样 分 库 拆 
表 , 而 是 在 应 用 代码 层 进行 大 量 的 改动 。 

(2) CouchDB 是 面向 文档 的 数据 库 ,存储 半 结 构 化 的 数据 ,特别 适合 存储 文档 ,因此 很 
适合 CMS 电话 本 、 地 址 本 等 应 用 ,在 这 些 应 用 场合 ,文档 数据 库 要 比 关系 数据 库 更 加 方便 、 
性 能 更 好 。 

(3) CouchDB 支持 RESTful API. REST(Representational State Transfer) 指 的 是 一 
组 架构 约束 条 件 和 原则 ,描述 了 一 个 架构 样式 的 网 络 系统 ,如 Web 应 用 程序 。 满 足 这 些 约 
束 条 件 和 原则 的 应 用 程序 或 设计 就 是 RESTful。 它 可 以 让 用 户 使 用 JavaScript 来 操作 
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CouchDB 数据 库 ,也 可 以 用 JavaScript 编写 查询 语句 。 
与 传统 的 SQL 相 比 .CouchDB 在 对 数据 的 要 求 和 查询 操作 等 方面 都 存在 很 大 的 不 同 ， 
R 8-3 从 这 几 个 方面 对 二 者 进行 了 比较 。 
表 8-3 传统 的 SQL 和 CouchDB 的 对 比 























传统 SQL 数据 库 CouchDB 
结构 需要 预定 义 , 并 遵循 一 定 的 模式 结构 无 须 预 定义 ,没有 固定 模式 
是 结构 统一 的 表 的 集合 是 任意 结构 的 文档 的 集合 
数据 需要 满足 一 定 的 范式 ,数据 无 元 余 数据 不 必 满 足 任何 范式 ,存在 数据 宛 余 
用 户 需要 事前 清楚 表 结构 用 户 无 须 了 解 文档 结构 ,甚至 是 文档 名 
属于 静态 模式 下 的 动态 查询 属于 动态 模式 下 的 静态 查询 
8.3.4 Neo4j 


Neo4j 是 一 个 高 性 能 的 NoSQL 图 形 数据 库 , 将 结构 化 数据 存储 在 网 络 上 而 不 是 表 中 ， 
从 数学 的 角度 表达 ,这 种 存储 可 以 称 为 图 。Neo4j 是 一 个 高 度 可 伸缩 的 本 地 图 形 数据 库 , 其 
主旨 在 于 利用 和 研究 数据 本 身 的 同时 ,注重 数据 与 数据 之 间 的 关系 。 由 Neo4j 的 本 地 图 存 
储 和 数据 处 理 所 提供 的 持续 、 实 时 等 性 能 ,可 以 有 效 地 帮助 企业 构建 智能 应 用 以 满足 当今 不 
断 变化 的 大 数据 挑战 。 

Neo4j 具有 嵌入 式 、 高 性 能 、 轻 量 级 等 优势 ,得 到 了 人 们 越 来 越 多 的 关注 。Neo 和 也 可 以 
被 看 作 是 一 个 高 性 能 的 图 引擎 ,该 引擎 具有 成 熟 数据 库 的 所 有 特性 。 程 序 员 的 工作 是 面向 
对 象 的 ,是 在 灵活 的 网 络 结 构 下 进行 的 而 不 是 面 对 严 格 、 静 态 的 表 。 图 形 存储 是 一 个 灵活 的 
数据 结构 ,可 以 应 用 更 加 敏捷 和 快速 的 开发 模式 。 

Neo4j 提供 了 大 规模 可 扩展 性 , 既 可 以 在 一 台 机 器 上 处 理 多 达 数 十 亿 结 点 .关系 和 属性 
的 图 ,也 可 以 扩展 到 多 台 机 器 上 并 行 运行 。 相 对 于 关系 数据 库 来 说 ,图 形 数据 库 善 于 处 理 大 
量 复杂 、 相 互 连 接 、 低 结构 化 的 数据 ,这 些 数 据 变化 迅速 ,需要 频繁 的 查询 ,而 在 关系 数据 库 
中 ,这 样 频繁 的 查询 会 导致 大 量 的 表 连 接 ,计算 量 巨大 ,产生 性 能 上 的 问题 。Neo4j 重点 解 
决 了 拥有 大 量 连 接 的 传统 的 关系 型 数据 库 在 查询 时 出 现 的 性 能 衰退 问题 。 通 过 围绕 图 进行 
数据 建 模 ,Neodj 会 以 相同 的 速度 遍历 结 点 与 边 , 其 遍历 速度 与 构成 图 的 数据 量 没有 任何 关 
系 。 此 外 , Neo4j 还 提供 了 非常 快 的 图 算法 、 推 荐 系统 和 OLAP (On-Line Analytical 
Processing, 联 机 分 析 处 理 ) 风 格 的 分 析 , 而 这 一 切 在 目前 传统 的 关系 型 数据 库 系 统 中 都 是 
无 法 实现 的 。 

虽然 Neo4j 是 一 个 比较 新 的 开源 项 目 ,但 它 已 经 在 具有 1 亿 多 个 结 点 .关系 和 属性 的 产 
品 中 得 到 了 应 用 ,并 且 能 满足 企业 的 健壮 性 和 性 能 的 需求 。 


本 章 小 结 





在 20 世纪 ,各 网 站 的 访问 量 一 般 都 不 大 .用 单个 数据 库 完全 可 以 轻松 应 付 。 在 那个 时 
候 , 更 多 的 都 是 静态 网 页 ,动态 交互 类 型 的 网 站 不 多 。 近 10 年 ,各 类 型 网 站 快速 发 展 ,受到 
网 友 广泛 热 氟 的 论坛 .博客 、 微 博 等 逐渐 开始 引领 Web 领域 的 潮流 。NoSQL 数据 库 的 出 现 
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弥补 了 关系 数据 在 某 些 方面 的 不 足 , 在 某 些 方面 能 极 大 地 节省 开发 和 维护 成 本 。 

大 大 小 小 的 Web 站 点 在 追求 高 效 、 高 性 能 、 高 可 靠 性 方面 ,不 由 自主 都 选择 了 NoSQL 
技术 。 随 着 Web 2. 0 的 快速 发 展 , 非 关 系 型 .分 布 式 数 据 存 储 得 到 了 快速 的 发 展 。NoSQL 
通常 被 分 为 键 值 存储 、 列 存储 、 面 向 文档 存储 和 图 形 存 储 (Graph-Oriented) 四 大 类 。 在 
NoSQL 概念 提出 之 前 ,这 些 数据 库 就 被 用 于 各 种 系统 当中 ,但 是 却 很 少 用 于 互联 网 应 用 。 

本 章 首 先 介 绍 了 NoSQL 中 涉及 的 数据 库 基础 知识 ,并 从 和 传统 数据 库 比 较 的 角度 指 
导读 者 理解 ,其 次 介绍 了 4 种 主流 NoSQL 数据 库 的 基本 工作 方式 ,最 后 介绍 了 各 种 类 型 
NoSQL 数据 库 的 典型 产品 。 

【注释 】 

1. Web 2.0; Web 2. 0 是 相对 于 Web 1. 0 的 概念 而 来 的 。 为 了 区 别 于 传统 的 由 网 站 雇员 主导 生成 内 
容 的 Web 1. 0 时 代 , 将 由 用 户主 导 而 生成 内 容 的 新 互联 网 产品 模式 定义 为 第 二 代 互联 网 , 即 Web 2.0。 

2. Cache; 即 高 速 缓冲 存储 器 。 

3. WW Hash RA: 一 般 译 为 “ 散 列 ”, 也 有 直接 音译 为 “ 哈 希 "的 ,就 是 把 任意 长 度 的 输入 (又 称 为 预 
映射 ,pre-image) 通 过 散 列 算法 ,变换 成 固定 长 度 的 输出 ,该 输出 就 是 散 列 值 。 这 种 转换 是 一 种 压缩 映射 ， 
即 散 列 值 的 空间 通常 远 小 于 输入 的 空间 ,不 同 的 输入 可 能 会 散 列 成 相同 的 输出 ,所 以 不 可 能 从 散 列 值 来 唯 
一 地 确定 输入 值 。 简 单 地 说 就 是 一 种 将 任意 长 度 的 消息 压缩 到 某 一 固定 长 度 的 消息 摘要 的 函数 。 

4. DRAM (Dynamic Random Access Memory, 动 态 随机 存 取 存储 器 ): 是 最 为 常见 的 系统 内 存 。 
DRAM 只 能 将 数据 保持 很 短 的 时 间 。 为 了 保持 数据 ,DRAM 使 用 电容 存储 ,所 以 必须 隔 一 段 时 间 刷 新 一 
次 ,如 果 存 储 单元 没有 被 刷新 ,存储 的 信息 就 会 丢失 ,关机 时 将 会 释放 所 有 数据 。 

5. 时 间 戳 (Time Stamp): 通常 是 一 个 字符 序列 ,唯一 地 标志 某 一 刻 的 时 间 。 数 字 时 间 截 技术 是 数字 
签名 技术 的 一 种 变形 应 用 。 时 间 戳 是 一 个 经 加 密 后 形成 的 凭证 文档 ,由 文件 的 摘要 Digest、 收 到 文件 的 日 
期 和 时 间 及 数字 签名 三 部 分 组 成 。 

6. 原子 性 : 指 一 个 操作 或 是 一 个 程序 在 执行 的 过 程 中 是 不 可 中 断 的 。 

7. B- 树 : B- 树 是 一 种 多 路 搜索 树 , 是 一 种 适用 于 外 查找 的 树 , 因 其 是 个 平衡 的 多 叉 树 而 得 名 。 

8. 并 发 锁 : 锁 是 一 项 用 于 多 用 户 同 时 访问 数据 库 的 技术 ,是 实现 并 发 控制 的 一 项 重要 手段 ,能 够 防止 
当 多 用 户 改写 数据 库 时 造成 数据 丢失 和 损坏 。 当 有 一 个 用 户 对 数据 库 内 的 数据 进行 操作 时 ,在 读 取 数 据 
前 先 锁 住 数据 ,这 样 其 他 用 户 就 无 法 访问 和 修改 该 数据 ,直到 这 一 数据 修改 并 写 回 数据 库 解除 封锁 为 止 。 

9. 分 区 键 (Partition Key): 是 一 个 或 多 个 表 列 的 有 序 集合 。 分 区 键 以 列 中 的 值 来 确定 每 个 表 行 所 属 
的 数据 分 区 。 选 择 有 效 的 分 区 键 对 于 充分 利用 分 区 技术 来 说 十 分 关键 。 
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组 成 与 应 





Spar| 


是 一 个 围绕 速度 、 易 用 性 和 复杂 分 析 构 建 的 大 数据 处 理 框架 ,并 在 近 两 年 内 
大 数据 处 理 领域 最 炙手可热 的 开源 项 目 。 

概述 介绍 了 Spark 的 概念 、 国 内 外 研究 现状 与 Spark 框架 的 开发 语言 Scala。 
与 Hadoop 介绍 了 Hadoop 的 局 限 与 不 足以 及 Spark 的 优点 。 

大 数据 处 理 架构 及 其 生态 系统 介绍 了 Spark 生态 系统 的 组 成 与 各 个 模块 的 
用 。 

的 应 用 介绍 了 Spark 的 应 用 场景 与 成 功 案 例 。 





重点 、 难 点 





本 章 的 重点 是 Hadoop 和 Spark 的 关系 、Spark 的 优点 ,Spark 生态 系统 的 组 成 。 本 
章 的 难点 是 Spark 生态 系统 中 各 个 模块 的 组 成 与 应 用 。 
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在 大 数据 领域 ,Apache Spark( 以 下 简称 Spark) 通 用 并 行 分 布 式 计算 框架 越 来 越 受 人 





k 适合 各 种 迭代 算法 和 交互 式 数据 分 析 , 能 够 提升 大 数据 处 理 的 实时 性 和 准确 


性 ,能 够 更 快速 地 进行 数据 分 析 。 
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9.1 Spark 概述 


Spark 和 Hadoop 两 者 都 是 大 数据 框架 ,而 Spark 是 Hadoop 的 后 继 产品 。 由 于 
Hadoop 设计 上 只 适合 离线 数据 的 计算 以 及 在 实时 查询 和 迭代 计算 上 的 不 足 , 已 经 不 能 满 
足 日 益 增 长 的 大 数据 业务 需求 ,因而 Spark 应 运 而 生 。Spark 具有 可 伸缩 、 基 于 内 存 计 算 等 
特点 ,解决 了 Hadoop 存在 的 不 足 , 并 可 以 直接 读 写 Hadoop 上 任何 格式 的 数据 ,未 来 的 大 
数据 领域 一 定 是 Spark 的 天 下 。 


9.1.1 Spark 简介 


Spark 是 一 个 开源 的 通用 并 行 分 布 式 计算 框架 ,2009 年 由 加 州 大 学 伯克利 分 校 的 AMP 
实验 室 开 发 ,是 当前 大 数据 领域 最 活跃 的 开源 项 目 之 一 。Spark 是 基于 MapReduce 算法 实 
现 的 分 布 式 计算 ,拥有 MapReduce 所 具有 的 优点 ; 但 不 同 于 MapReduce 的 是 Spark 将 操 
作 过 程 中 的 中 间 结 果 保 存在 内 存 中 ,从 而 不 再 需要 读 写 HDFS, 因 此 Spark 能 更 好 地 适用 于 
数据 挖掘 与 机 器 学 习 等 需要 人 迭代 的 MapReduce 算法 。 


Spark 也 称 为 快 数据 ,与 Hadoop 的 传统 计算 120[ 0 
方式 MapReduce 相 比 .效率 至 少 提高 100 倍 。 例 如 90 
逻辑 回归 算法 在 Hadoop 和 Spark 上 的 运行 时 间 对 R mam Hadoop 
比 ,可 以 看 出 Spark 的 效率 有 很 大 的 提升 ,如 图 9-1 timers @ == Spark 
所 示 。 30 

Spark 框架 还 提供 多 语言 支持 , 它 不 仅仅 支持 s" 0.9 





编写 其 源码 的 Scala 语言 ,而 且 对 现在 非常 流行 的 
Java 和 Python 语言 也 有 着 良好 的 支持 。 现 在 
Spark R 项 目 也 在 紧锣密鼓 的 开发 中 ,不 久之 后 的 
Spark 版 本 也 将 对 R 语言 进行 很 好 的 支持 。 


9.1.2 Spark 发 展 


图 9-1 逻辑 回归 算法 在 Hadoop 和 
Spark 上 的 运行 时 间 对 比 


Spark 的 发 展 速度 非常 迅速 。2009 年 ,Spark 诞生 ; 2010 年 ,Spark 正式 开源 ; 2013 年 ， 
Spark 成 为 了 Apache 基金 项 目 ; 2014 年 ,Spark 成 为 Apache 基金 的 顶级 项 目 ,整个 过 程 不 
到 5 年 时 间 。 

在 2013 年 来 ,Spark 进入 了 一 个 高 速 发 展期 ,代码 库 提交 与 社区 活跃 度 都 有 显著 增长 。 
相 较 于 其 他 大 数据 平台 或 框架 而 言 ,Spark 的 代码 库 最 为 活跃 ,如 图 9-2 所 示 。 

从 2013 年 6 月 到 2014 年 6 月 ,Spark 的 开发 人 员 从 原来 的 68 位 增长 到 255 位 ,参与 开 
发 的 公司 也 从 17 家 上 升 到 50 家 。 在 这 50 家 公司 中 ,有 来 自 中 国 的 阿里 巴巴 百度、 网 易 、 
腾讯 .搜狐 等 公司 。 当 然 , 代 码 库 的 代码 行 也 从 原来 的 63 000 行 增加 到 75 000 行 。 图 9-3 
为 截至 2014 年 Spark 的 开发 人 员 数 量 每 个 月 的 增长 曲线 。 

Spark 广泛 应 用 在 国内 外 各 大 公司 .例如 国外 的 谷歌 .亚马逊 、 雅 虎 、 微 软 和 国内 的 百 
度 、 腾 讯 、 爱 奇 艺 、 阿 里 等 公司 。 阿 里 巴巴 将 Spark 应 用 在 双 十 一 购物 节 中 ,处 理 当 天 产生 的 
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大 量 的 实时 数据 ; 爱 奇 艺 应 用 Spark 对 其 业务 量 日 益 增长 的 视频 服务 提供 数据 分 析 和 存储 
的 支持 ; 百度 利用 Spark 进行 大 数据 量 网 页 搜索 的 优化 的 实践 。 随 着 各 行业 数据 量 的 与 日 
俱 增 , 相 信 Spark 会 应 用 到 越 来 越 多 的 生产 场景 中 去 。 
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图 9-2 Spark 代码 库 活跃 度 与 其 他 大 数据 框架 的 比较 
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图 9-3 Spark 的 开发 人 员 数 量 每 个 月 的 增长 曲线 


9.1.3 Scala 语言 


Scala 语言 是 Spark 框架 的 开发 语言 ,是 一 种 类 似 Java 的 编程 语言 ,其 设计 初衷 是 实现 
可 伸缩 的 语言 ,并 集成 面向 对 象 编程 和 函数 式 编程 的 各 种 特性 。Spark 能 成 为 一 个 高 效 的 
大 数据 处 理 平台 ,与 其 使 用 Scala 语言 编写 是 分 不 开 的 。 尽 管 Spark 支持 使 用 Scala Java 
和 Python 三 种 开发 语言 进行 分 布 式 应 用 程序 的 开发 ,但 是 Spark 对 于 Scala 的 支持 却 是 最 
好 的 。 因 为 这 样 可 以 和 Spark 的 源 代码 进行 更 好 的 无 颖 结合 ,更 方便 地 调用 其 相关 功能 。 

Scala 在 序列 化 分布 式 框架 、 编 码 效率 等 多 个 方面 都 有 着 很 好 的 兼容 和 支持 ,所 以 在 构 
建 大 型 软件 项 目 和 对 复杂 数据 进行 处 理 方面 有 着 很 大 的 优势 。Scala 语言 基于 JVM, 因 此 
Scala 可 以 很 好 地 支持 所 有 Java 代码 和 类 库 , 并 且 可 以 在 编写 过 程 中 随时 调用 和 编写 Java 
语句 。 它 不 仅 具有 面向 对 象 的 特点 ,而 且 还 具有 函数 式 编程 语言 的 特性 。 


9.2 Spark 与 Hadoop 


Spark 是 当前 流行 的 分 布 式 并 行 大 数据 处 理 框架 ,具有 快速 ` 通 用、 简单 等 特点 。Spark 
的 提出 很 大 程度 上 是 为 了 解决 Hadoop 在 处 理 迭 代 算法 上 的 缺陷 。Spark 可 以 与 Hadoop 
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联合 使 用 ,增强 Hadoop 的 性 能 。 同 时 ,Spark 还 增加 了 内 存 缓存 ` 流 数据 处 理 ` 图 数据 处 理 
等 更 为 高 级 的 数据 处 理 能 力 。 


9.2.1 Hadoop 的 局 限 与 不 足 


Hadoop 框架 中 的 MapReduce 为 海量 数据 提供 了 计算 方法 ,但 是 MapReduce 存在 以 下 
局 限 ,使 用 起 来 比较 困难 。 

(1) 抽象 层次 低 , 需 要 手工 编写 代码 来 完成 ,用 户 难以 上 手 使 用 。 

(2) 只 提供 Map 和 Reduce 两 个 操作 ,表达 力 人 欠缺 。 

(3) 处 理 逻 辑 隐藏 在 代码 细节 中 ,没有 整体 逻辑 。 

(4) 中 间 结 果 也 放 在 HDFS 文件 系统 中 ,中 间 结 果 不 可 见 ,不 可 分 享 。 

(5) ReduceTask 需要 等 待 所 有 MapTask 都 完成 后 才 可 以 开始 。 

(6) 延 时 长 ,响应 时 间 完 全 没有 保证 ,只 适用 于 批量 数据 处 理 ,不 适用 于 交互 式 数 据 处 
理 和 实时 数据 处 理 。 

(7) 对 于 图 处 理 和 迭代 式 数据 处 理性 能 比较 差 。 

例如 用 MapReduce 实现 两 个 表 的 连接 工作 都 是 一 个 很 复杂 的 过 程 ,如 图 9-4 所 示 。 




































































INPUTS MAP REDUCE OUTPUTS 

tl, p3, u1,$300, sweater ul. US ia 

t2, pl, u2,$100, chicken A ul, 

13. pl, ul,$100, chicken "Ia. upl 

14, p2, u2,$10, banana wa CA p3. US 
t5, p4, u4.S9, apple d > p pl, US 

u2, GB Ass 

ul, a@example.com, EN, US u2, p3 z 2 
u2, b@example.com. EN, GB u2, pl u4, p4 ü 

u3, c@example.com, EN, CA E r u4, CA 

u4, d@example.com, FR, CA wp 13.CA 

Partition, Sort, 
Group 
图 9-4 用 MapReduce 实现 两 个 表 的 连接 
9.2.2 Spark 的 优点 
与 Hadoop 相 比 ,Spark 真正 的 优势 在 于 速度 .除了 速度 之 外 ,Spark 还 有 很 多 的 优点 ， 
如 表 9-1 所 示 o 
表 9-1 与 Hadoop 相 比 ,Spark 的 优点 
项 目 Hadoop Spark 
工作 方式 | 非 在 线 .静态 在 线 、 动 态 
处 理 速 度 | 高 延迟 比 Hadoop 快 数 十 倍 至 上 百倍 
开发 语言 : Java 语言 开发 语言 : 以 Scala 为 主 的 多 语言 
兼容 性 | 最 好 在 Linux 系统 下 搭建 ,对 Windows | 对 Linux 和 Windows 等 操作 系统 的 兼容 性 都 非 

的 兼容 性 不 好 常 好 
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续 表 
项 目 Hadoop Spark 

存储 方式 | 磁盘 既 可 以 仅 用 内 存 存储 ,也 可 以 在 磁盘 上 存储 

aria 只 提供 Map 和 Reduce 两 个 操作 ,表达 | 提供 很 多 转换 和 动作 ,很 多 基本 操作 如 Join, 
HRR GroupBy 已 经 在 RDD 转换 和 动作 中 实现 。 

as 只 适用 于 数据 的 批 处 理 , 实 时 处 理 非 | 除了 能 够 提供 交互 式 实时 查询 外 ,还 可 以 进行 图 

| 常 差 处 理 、 流 式 计算 和 反复 迭代 的 机 器 学 习 等 

逻辑 性 i i 代码 不 包含 具体 操作 的 实现 细节 ,逻辑 更 清晰 

抽象 层次 | 抽象 层次 低 ,需要 手工 编写 代码 来 完成 | Spark 的 API 更 强大 ,抽象 层次 更 高 

可 测试 性 | 不 容易 容易 











9.2.3 Spark 速度 比 Hadoop 快 的 原因 分 解 


1. Hadoop 数据 抽取 运算 模型 


使 用 Hadoop 处 理 一 些 问题 诸如 迭代 式 计算 , 每 次 对 磁盘 和 网 络 的 开销 相当 大 。 尤 其 
每 一 次 迭代 计算 都 要 将 结果 写 到 磁盘 再 读 回来 ,另外 计算 的 中 间 结 果 还 需要 三 个 备份 。 
Hadoop 中 的 数据 传送 与 共享 、 串 行 方式 、 复 制 以 及 磁盘 1/O 等 因素 使 得 Hadoop 集群 在 低 
延迟 、 实 时 计算 方面 的 表现 有 待 改 进 。Hadoop 的 数据 抽取 运算 模型 如 图 9-5 所 示 。 


















































HDFS HDFS HDFS HDFS 
读 取 存 写 读 取 存 写 
iter2 
输入 
查询 1 “上 一 一 一 结果 1 
查询 2 “| 一 | 结果 2 
查询 3 |f | m 
L J 结果 3 
输入 


图 9-5 Hadoop 数据 抽取 运算 模型 


从 图 9-5 中 可 以 看 出 , Hadoop 中 数据 的 抽取 运算 是 基于 磁盘 的 ,中 间 结 果 也 存储 在 磁 
盘 上 ,所 以 ,MapReduce 运算 伴随 着 大 量 磁盘 的 1/O 操作 ,运算 速度 严重 受到 了 限制 。 


2. Spark 数据 抽取 运算 模型 


Spark 使 用 内 存 (RAM) 代替 传统 HDFS 存储 中 间 结 果 , 其 数据 抽取 运算 模型 如 图 9-6 
所 示 。 

从 图 9-6 中 可 以 看 出 ,Spark 这 种 内 存 型 计算 框架 比较 适合 各 种 迭代 算法 和 交互 式 数 
据 分 析 。 每 次 将 操作 过 程 中 的 中 间 结 果 存 人 内 存 中 ,下 次 操作 直接 从 内 存 中 读 取 ,省 去 了 大 
量 的 磁盘 1/O 操作 ,效率 也 随 之 大 幅 提升 。 
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图 9-6 
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RAM 
| 一 | 结果 1 
查询 1 = 
查询 2 | Jj) 结果 2 
RAM 查询 3 | — | 结果 3 
Spark 数据 抽取 运算 模型 


9.3 Spark 大 数据 处 理 架 构 及 其 生态 系统 


Spark 生态 系统 分 为 三 层 ,如 图 9-7 所 示 。 





Spark SQL 





MLlib 





GraphX Spark Streaming 


























Spark Runtime | 





Cluster Manager 


Data Manager 





Yarn 





从 底 向 上 分 别 为 : 


Mesos 





HDFS AWS 


图 9-7 Spark 生态 系统 组 成 


(1) 底层 的 Cluster Manager 和 Data Manager。Cluster Manager 负责 集群 的 资源 管 
理 ,Data Manager 负责 集群 的 数据 管理 。 
(2) 中 间 层 的 Spark Runtime, E Spark 内 核 。 它 包括 Spark 的 最 基本 、 最 核心 的 功能 


和 基本 分 布 式 算 子 。 


(3) 最 上 层 为 4 个 专门 用 于 处 理 特定 场景 的 Spark 高 层 模块 Spark SQL, MLlib、 
GraphX 和 Spark Streaming, 这 4 个 模块 基于 Spark RDD 进行 了 专门 的 封装 和 定制 ,可 以 


无 缝 结合、 互相 配合 。 


9.3.1 底层 的 Cluster Manager 和 Data Manager 


Cluster Manager 负责 集群 的 资源 管理 .Data Manager 负责 集群 的 分 布 式 存储 (数据 


管理 ) 。 


(1) 集群 的 资源 管理 可 以 选择 Yarn, Mesos 等 。 
Mesos 是 Apache 下 的 开源 分 布 式 资源 管理 框架 , 它 被 称 为 是 分 布 式 系统 的 内 核 。 
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Mesos 根据 资源 利用 率 和 资源 占用 情况 ,在 整个 数据 中 心 内 进行 任务 的 调度 ,提供 类 似 于 
YARN 的 功能 。Mesos 内 核 运行 在 每 个 机 器 上 ,可 以 通过 数据 中 心 和 云 环 境 向 应 用 程序 
(Hadoop, Spark 等 ) 提 供 资 源 管理 和 资源 负载 的 API 接口 。 

(2) 集群 的 数据 管理 则 可 以 选择 HDFS.AWS 等 。 

Spark 支持 HDFS 和 AWS 两 种 分 布 式 存储 系统 。 亚 马 逊 云 计 算 服 务 (Amazon Web 
Services,AWS) 提 供 全 球 计算 、 存 储 、 数 据 库 、 分 析 、 应 用 程序 和 部 署 服务 ,AWS 提供 的 云 服 
务 中 支持 使 用 Spark 集群 进行 大 数据 分 析 。Spark 对 文件 系统 的 读 取 和 写 入 功能 是 Spark 
自己 提供 的 ,借助 Mesos 分 布 式 实现 。 




















9.3.2 中 间 层 的 Spark Runtime 


Spark Runtime 包含 Spark 的 基本 功能 ,这 些 功 能 主要 包括 任务 调度 、 内 存 管理 ,故障 
恢复 以 及 和 存储 系统 的 交互 等 。Spark 的 一 切 操 作 都 是 基于 RDD 实现 的 ,RDD 是 Spark 
中 最 核心 的 模块 和 类 ,也 是 Spark 设计 的 精华 所 在 。 


1. RDD 


RDD( Resilient Distributed Datasets) 即 弹性 分 布 式 数据 集 ,可 以 简单 地 把 RDD 理解 成 
一 个 提供 了 许多 操作 接口 的 数据 集合 ,和 一 般 数据 集 不 同 的 是 ,其 实际 数据 分 布 存 储 在 磁盘 
和 内 存 中 。 

对 开发 者 而 言 ,RDD 可 以 看 作 是 Spark 中 的 一 个 对 象 , 它 本 身 运行 于 内 存 中 ,如 读 文 件 
是 一 个 RDD, 对 文件 计算 是 一 个 RDD, 结 果 集 也 是 一 个 RDD, 不 同 的 分 片 , 数 据 之 间 的 依 
赖 、Key-Value 类 型 的 Map 数据 都 可 以 看 作 RDD. RDD 是 一 个 大 的 集合 ,将 所 有 数据 都 加 
载 到 内 存 中 ,方便 进行 多 次 重用 。 

例如 经 典 的 WordCount 程序 ,其 在 Spark 编程 模型 下 的 操作 方式 如 图 9-8 所 示 。 


文件 系统 
RDDI 






Textl 






Hello,Java textFile 





Hello,c Hello, Java 
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Scala Java 
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(Hello,1) 
(Java,1) 
(Hello, 1) 
(cl) 
(Scala.1) 
(Java.1) 














(Hello,2) 
(Java,2) 
(c,1) 
(Scala, 1) 






reduceByKey 






图 9-8 ”WordCount 程序 在 Spark 编程 模型 下 的 RDD 转换 
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操作 步骤 如 下 : 

(1) 使 用 textFile 函数 读 取 文 件 系 统 中 的 文本 文件 ,创建 RDD1; 

(2) RDD1 经 过 flatMap( 类 似 于 Map) 函数 转换 得 到 RDD2; 

(3) RDD2 再 经 过 reduceByKey 函数 转换 得 到 RDD3; 

(4) RDD3 中 的 数据 重新 写 回 文件 系统 。 

可 以 看 到 Spark 的 一 切 操作 都 是 基于 RDD 实现 的 。 

使 用 RDD 的 好 处 如 下 : 

(1) RDD 是 分 布 式 的 ,可 以 分 布 在 多 台 机 器 上 进行 计算 ; 

(2) RDD 是 弹性 的 ,在 计算 处 理 过 程 中 , 当 机 器 的 内 存 不 够 时 , 它 会 和 硬盘 进行 数据 
交换 。 

(3) RDD 计算 的 中 间 结 果 会 被 保存 。 出 于 可 靠 性 考虑 ,同一 个 计算 结果 也 会 在 集群 中 
的 多 个 结 点 进行 保存 备份 。 

(4) 如 果 其 中 的 某 一 数据 子 集 在 计算 过 程 中 出 现 了 问题 ,针对 该 数据 子 集 的 处 理会 被 
重新 调度 ,进而 完成 容错 机 制 。 


2. RDD 的 操作 类 型 与 DAG 


RDD 提供 了 丰富 的 编程 接口 来 操作 数据 集合 ,一 种 是 Transformation 操作 , 另 一 种 是 
Action 操作 。 

(1) Transformation 的 返回 值 是 一 个 RDD, 如 Map, Filter „Union 等 操作 。 它 可 以 理解 
为 一 个 领取 任务 的 过 程 。 如 果 只 提交 Transformation 是 不 会 触发 任务 执行 的 ,任务 只 有 在 
Action 提交 时 才 会 被 触发 。 

(2) Action 返回 的 结果 把 RDD 持久 化 起 来 ,是 一 个 真正 触发 执行 的 过 程 。 它 将 规划 以 
任务 (Job) 的 形式 提交 给 计算 引擎 ,由 计算 引擎 将 其 转换 为 多 个 Task, 然 后 分 发 到 相应 的 计 
算 结 点 ,开始 真正 的 处 理 过 程 。 

Spark 的 计算 发 生 在 RDD 的 Action 操作 ,而 对 Action 之 前 的 所 有 Transformation， 
Spark 只 是 记录 下 RDD 生成 的 轨迹 ,而 不 会 触发 真正 的 计算 。 

Spark 内 核 会 在 需要 计算 发 生 的 时 刻 绘制 一 张 关 于 计算 路 径 的 有 向 无 环 图 (Directed 
Acyclic Graph,DAG) 。 举 个 例子 ,在 图 9-9 中 ,从 输入 中 逮 辑 上 生成 A 和 C 两 个 RDD, 经 
过 一 系列 Transformation 操作 ,逻辑 上 生成 了 下 ,注意 ,这 时 候 计 算 没有 发 生 ,Spark 内 核 只 
是 记录 了 RDD 的 生成 和 依赖 关系 。 当 下 要 进行 输出 (进行 了 Action 操作 ) 时 ,Spark 会 根 
据 RDD 的 依赖 生成 DAG, 并 从 起 点 开始 真正 的 计算 。 








图 9-9 有 向 无 环 图 DAG 的 生成 
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9.3.3 高 层 的 应 用 模块 
1. Spark SOL 


Spark SQL 作为 Spark 大 数据 框架 的 一 部 分 ,主要 用 于 结构 化 数据 处 理 和 对 Spark 数 
据 执行 类 SQL 的 查询 ,并 且 与 Spark 生态 的 其 他 模块 无 颖 结合 。Spark SQL 兼容 SQL, 
Hive.JSON.JDBC 和 ODBC 等 操作 。Spark SQL 的 前 身 是 Shark, 而 Shark 的 前 身 是 
Hive。Shark 比 Hive 在 性 能 上 要 高 出 一 到 两 个 数量 级 ,而 Spark SQL 比 Shark 在 性 能 上 又 
要 高 出 一 到 两 个 数量 级 。 

2. MLlib 


MLlib 是 一 个 分 布 式 机 器 学 习 库 , 即 在 Spark 平台 上 对 一 些 常 用 的 机 器 学 习 算 法 进行 
了 分 布 式 实现 , 随 着 版 本 的 更 新 , 它 也 在 不 断 扩充 新 的 算法 。MLlib 支持 多 种 分 布 式 机 器 学 
习 算 法 ,如 分 类 、 回 归 、 聚 类 等 。MLlib 已 经 实现 的 算法 如 表 9-2 所 示 。 


表 9-2 MLlib 已 经 实现 的 算法 























算 法 功 能 
Classification/Clustenng/Regression 分 类 算法 .回归 算法 .决策 树 . 聚 类 算法 
Optimization 核心 算法 的 优化 方法 实现 
Stat 基础 统计 
Feature 预 处 理 
Evaluation 算法 效果 衡量 
Linalg 基础 线性 代数 运算 支持 
Recommendation 推荐 算法 





3. GraphX 


GraphX 是 构建 于 Spark 上 的 图 计算 模型 .GraphX 利用 Spark 框架 提供 的 内 存 缓存 
RDD, DAG 和 基于 数据 依赖 的 容错 等 特性 ,实现 高 效 健壮 的 图 计算 框架 。GraphX 的 出 现 
使 得 Spark 生态 系统 在 大 图 处 理 和 计算 领域 得 到 了 更 加 的 完善 和 丰富 。 同 时 GraphX 能 与 
Spark 生态 系统 其 他 组 件 进行 很 好 的 融合 ,以 及 其 强大 的 图 数据 处 理 能 力 ,使 其 广泛 地 应 用 
在 多 种 大 图 处 理 的 场景 中 。 

GraphX 实现 了 很 多 能 够 在 分 布 式 集群 上 运行 的 并 行 图 计算 算法 ,而 且 还 拥有 丰富 的 
API 接口 。 因 为 图 的 规模 大 到 一 定 的 程度 之 后 ,需要 将 算法 并 行 化 ,以 方便 其 在 分 布 式 集群 
上 进行 大 规模 处 理 。GraphX 的 优势 就 是 提升 了 数据 处 理 的 吞吐 量 和 规模 。 





4. Spark Streaming 


Spark Streaming 是 Spark 系统 中 用 于 处 理 流 数据 的 分 布 式 流 处 理 框 架 , 扩 展 了 Spark 
流 式 大 数据 处 理 能 力 。Spark Streaming 将 数据 流 以 时 间 片 为 单位 进行 分 割 形成 RDD ,能 
够 以 相对 较 小 的 时 间 间 隔 对 流 数据 进行 处 理 。Spark Streaming 还 能 够 和 其 余 Spark 生态 
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的 模块 如 Spark SQL、GraphX、MLlib 等 Spark 生态 的 其 余 模 块 进行 无 缝 的 集成 ,以 便 联合 
完成 基于 实时 流 数据 处 理 的 复杂 任务 。 

如 果 要 用 一 句 话 来 概括 Spark Streaming 的 处 理 思路 的 话 , 那 就 是 “将 连续 的 数据 持久 
化 、 离 散 化 ,然后 进行 批量 处 理 ”。 

(1) 数据 持久 化 。 

将 从 网 络 上 接收 到 的 数据 先 暂 时 存储 下 来 ,为 事件 处 理 出 错时 的 事件 重演 提供 可 能 。 

(2) 数据 离散 化 。 

数据 源源 不 断 地 涌 进 ,永远 没有 尽头 。 既 然 不 能 穷尽 ,那么 就 将 其 按时 间 分 片 。 例 如 采 
用 一 分 钟 为 时 间 间 隔 , 那 么 在 连续 的 一 分 钟 内 收集 到 的 数据 就 集中 存储 在 一 起 。 

(3) 批量 处 理 。 

将 持久 化 下 来 的 数据 分 批 进行 处 理 ,处 理 机 制 套用 之 前 的 RDD 模式 。 

Spark Streaming 的 计算 流程 如 图 9-10 所 示 。 
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图 9-10 Spark Streaming 的 计算 流程 


(1) Spark Streaming 将 实时 输入 的 数据 流 (Data Stream) 分 解 成 一 系列 短小 的 批 处 理 
作业 (Batches)。 也 就 是 把 Spark Streaming 的 输入 数据 按照 Batch Size( 如 1s) 分 成 一 段 一 
段 的 数据 (Discretized Stream.DStream), 

(2) 将 每 一 段 数据 (DStream) 都 转换 成 Spark 中 的 RDD 保存 到 Spark 的 内 存 中 ,由 内 
存 管理 器 (Memory Manager) 进 行 管理 ,记录 下 RDD 生成 的 轨迹 。 

(3) 将 Spark Streaming 中 对 DStream 的 Transformation 操作 变 为 针对 Spark 中 对 
RDD 的 Transformation 操作 , 交 给 Spark 中 的 任务 调度 程序 (Task Scheduler) 。 

(4) 执行 RDD 的 Action 操作 ,将 任务 提交 给 计算 引擎 , 将 批 处 理 的 计算 结果 (Batches 
Of Results) 输 出 。 
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9.4 Spark 的 应 用 


目前 大 数据 在 互联 网 公司 主要 应 用 在 广告 、 报 表 、 推 荐 系统 等 业务 上 ,这 些 业务 都 需要 
大 数据 做 应 用 分 析 、 效 果 分 析 、 定 向 优化 等 。 这 些 应 用 场景 的 普遍 特点 是 计算 量 大 、 反 复 操 
作 的 次 数 多 、 效 率 要求 高 ,Spark 恰恰 满足 了 这 些 要 求 。 


9.4.1 Spark 的 应 用 场景 


Spark 可 以 解决 大 数据 计算 中 的 批 处 理 、 交 互 查询 及 流 式 计 算 等 核心 问题 。Spark 可 以 
从 多 数据 源 读 取 数 据 ,并 且 拥 有 不 断 发 展 的 机 器 学 习 库 和 图 计算 库 供 开 发 者 使 用 。 数 据 和 
计算 在 Spark 内 核 及 Spark 的 子 模块 中 是 无 颖 结合、 互相 配合 的 。Spark 的 各 个 子 模块 以 
Spark 内 核 为 基础 ,进一步 支持 更 多 的 计算 场景 ,例如 使 用 Spark SQL 读 入 的 数据 可 以 作为 
机 器 学 习 库 MLlib 的 输入 。 表 9-3 列举 了 Spark 的 应 用 场景 。 
表 9-3 Spark 的 应 用 场景 举例 





























应 用 场景 时 间 对 比 成 熟 的 框架 Spark 
复杂 的 批量 数据 处 理 小 时 级 ,分 钟 级 MapReduce(Hive) | Spark Runtime 
基于 历史 数据 的 交互 式 查询 分 钟 级 , 秒 级 MapReduce Spark SQL 
基于 实时 数据 流 的 数据 处 理 秒 级 , 秒 级 Storm Spark Streaming 
基于 历史 数据 的 数据 挖掘 分 钟 级 , 秒 级 Mahout Spark MLlib 
基于 增 量 数据 的 机 器 学 习 分 钟 级 无 Spark Streaming 十 MLlib 
基于 图 计算 的 数据 处 理 分 钟 级 无 Spark GraphX 


9.4.2 应 用 Spark 的 成 功 案例 


Spark 的 优势 不 仅 体 现在 性 能 的 提升 上 ,Spark 框架 还 为 批 处 理 (Spark Core), SQL 查 
询 (Spark SQL) | Hist H (Spark Streaming)、 机 器 学 习 (MLlib)、 图 计算 (GraphX) 提 供 了 
一 个 统一 的 数据 处 理 平台 ,这 相 较 于 使 用 Hadoop 有 很 大 优势 。 已 经 成 功 应 用 Spark 的 典 
型 案例 如 下 。 


1. 腾讯 


为 了 满足 挖掘 分 析 与 交互 式 实时 查询 的 计算 需求 .腾讯 大 数据 使 用 了 Spark 平台 来 支 
持 挖掘 分 析 类 计算 、 交 互 式 实时 查询 计算 以 及 允许 误差 范围 的 快速 查询 计算 .目前 腾讯 大 数 
据 拥有 超过 200 台 的 Spark 集群 。 

腾讯 大 数据 精准 推荐 借助 Spark 快速 近代 的 优势 ,围绕 “数据 十 算法 十 系统 "这 套 技术 
方案 ,实现 了 在 “数据 实时 采集 、 算 法 实时 训练 、 系 统 实时 预测 ”的 全 流程 实时 并 行 高 维 算法 ， 
最 终 成 功 应 用 于 广 点 通 上 ,支持 每 天 上 百 亿 的 请 求 量 。 





2. Yahoo 


在 Spark 技术 的 研究 与 应 用 方面 .Yahoo 始终 处 于 领先 地 位 , 它 将 Spark 应 用 于 公司 的 


<<< 


各 种 产品 之 中 。 移 动 App、 网 站 、 广 告 服务 、 图 片 服务 等 服务 的 后 端 实时 处 理 框 架 均 采用 了 
Spark 的 架构 。 

Yahoo 选择 Spark 是 基于 以 下 几 点 进行 考虑 的 : 

(1) 进行 交互 式 SQL 分 析 的 应 用 需求 ; 

(2) RAM 和 SSD 价格 不 断 下 降 . 数 据 分 析 实 时 性 的 需求 越 来 越 多 ,大 数据 急需 一 个 内 
存 计算 框架 进行 处 理 ; 

(3) 程序 员 熟 悉 Scala 开发 ,学 习 Spark 速度 快 ; 

(4) Spark 的 社区 活跃 度 高 ,开源 系统 的 Bug 能 够 更 快 地 解决 ; 

(5) 可 以 无 缝 将 Spark 集成 进 现 有 的 Hadoop 处 理 架 构 。 


3. 淘宝 


淘宝 技术 团队 使 用 了 Spark 来 解决 多 次 迭代 的 机 器 学 习 算 法 ,高 计算 复杂 度 的 算法 等 。 
他 们 将 Spark 运用 于 淘宝 的 推荐 相关 算法 上 ,同时 还 利用 Graphx 解决 了 许多 生产 问题 。 

(1) Spark Streaming: 淘宝 在 云梯 构建 基于 Spark Streaming 的 实时 流 处 理 框架 。 
Spark Streaming 适合 处 理 历 史 数据 和 实时 数据 混合 的 应 用 需求 ,能 够 显著 提高 流 数据 处 理 
的 吞吐 量 。 其 对 交易 数据 .用户 浏览 数据 等 流 数 据 进行 处 理 和 分 析 , 能 够 更 加 精准 .快速 地 
发 现 问题 和 进行 预测 。 

(2) GraphX: 淘宝 将 交易 记录 中 的 物品 和 人 组 成 大 规模 图 ,使 用 GraphX 对 这 个 大 图 
进行 处 理 ( 上 亿 个 结 点 , 几 十 亿 条 边 ) GraphX 能 够 和 现 有 的 Spark 平台 无 缝 集成 ,减少 多 
平台 的 开发 代价 。 


4. 优酷 土豆 


优酷 土豆 作为 国内 最 大 的 视频 网 站 ,和 国内 其 他 互联 网 巨头 一 样 ,率先 看 到 大 数据 对 公 
司 业务 的 价值 , 早 在 2009 年 就 开始 使 用 Hadoop 集群 , 随 着 这 些 年 业务 的 迅猛 发 展 ,优酷 土 
豆 又 率先 尝试 了 仍 处 于 大 数据 前 沿 领域 的 Spark 内 存 计算 框架 ,很 好 地 解决 了 机 器 学 习 和 
图 计算 多 次 迭代 的 瓶 天 问题 ,使 得 公司 的 大 数据 分 析 更 加 完善 。 

据 了 解 ,优酷 土豆 采用 Spark 大 数据 计算 框架 得 到 了 英特尔 公司 的 帮助 ,起 初 优酷 土豆 
并 不 熟悉 Spark 以 及 Scala 语言 .英特尔 帮助 优酷 土豆 设计 出 具体 符合 业务 需求 的 解决 方 
案 , 并 协助 优酷 土豆 实现 了 该 方案 。 此 外 ,英特尔 还 给 优酷 土豆 的 大 数据 团队 进行 了 Scala 
语言 .Spark 的 培训 等 。 














本 章 小 结 


本 章 介绍 了 Spark 大 数据 处 理 框架 。 通 过 本 章 的 学 习 了 解 Spark 的 概念 与 国内 外 研究 
现状 ,掌握 Spark 有 哪些 优点 (对 比 Hadoop) ,掌握 Spark 速度 比 Hadoop 快 的 原因 ,掌握 
Spark 生态 系统 的 组 成 ,了解 Spark 生态 系统 中 的 Runtime, Spark SQL MLlib, .GraphX、 
Spark Streaming 的 概念 与 应 用 ,了解 Spark 的 应 用 场景 与 成 功 应 用 Spark 的 典型 案例 。 

【注释 】 

1. 和 迭代 : 是 重复 反馈 过 程 的 活动 ,其 目的 通常 是 为 了 逼近 所 需 目标 或 结果 。 每 一 次 对 过 程 的 重复 称 
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为 一 次 * 和 迭代 ”, 而 每 一 次 选 代 得 到 的 结果 会 作为 下 一 次 迭代 的 初始 值 。 

2. 流 数 据 : 流 数据 是 一 组 顺序 、 大 量 ,快速 连续 到 达 的 数据 序列 。 一 般 情况 下 ,数据 流 可 被 视 为 一 个 
随时 间 延 续 而 无 限 增长 的 动态 数据 集合 ,应 用 于 网 络 监控 \、 传 感 嚣 网络、 航空 航天 、 气 象 测控 和 金融 服务 等 
领域 。 

3. R 语言 : 用 于 统计 分 析 ,绘图 的 语言 和 操作 环境 。R 语言 是 一 个 自由 、 免 费 . 源 代码 开放 的 软件 , 它 
是 一 个 用 于 统计 计算 和 统计 制图 的 优秀 工具 。 

4. 机 器 学 习 : 是 一 门 多 领域 交叉 学 科 , 涉 及 概率 论 、 统 计 学 、. 盘 近 论 . 凸 分 析 、 算 法 复杂 度 理论 等 多 门 
学 科 。 专 门 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行为 ,以 获取 新 的 知识 或 技能 ,重新 组 织 已 有 的 知识 结 
构 使 之 不 断 改善 自身 的 性 能 。 

5. 序列 化 : 序列 化 (Serialization) 将 对 象 的 状态 信息 转换 为 可 以 存储 或 传输 的 形式 的 过 程 。 在 序列 化 
间 , 对 象 将 其 当前 状态 写 人 到 临时 或 持久 性 存储 区 。 以 后 ,可 以 通过 从 存储 区 中 读 取 或 反 序列 化 对 象 的 
态 ,重新 创建 该 对 象 。 

6. 逻辑 回归 : 是 一 种 广义 的 线性 回归 分 析 模 型 ,常用 于 数据 挖掘 ,疾病 自动 诊断 、. 经 济 预测 等 领域 , 例 
如 探讨 引发 疾病 的 危险 因素 ,并 根据 危险 因素 预测 疾病 发 生 的 概率 等 。 

7. Python 语言 : 是 一 种 面向 对 象 .解释 型 计算 机 程序 设计 语言 。Python 具有 丰富 和 强大 的 库 , 它 常 
被 称 为 胶水 语言 ,能够 把 用 其 他 语言 制作 的 各 种 模块 (尤其 是 C/C++) 很 轻松 地 联结 在 一 起 。 

8. JVM(Java Virtual Machine,Java 虚拟 机 ) : 是 一 种 用 于 计算 设备 的 规范 , 它 是 一 个 虚构 出 来 的 计算 
机 ,是 通过 在 实际 的 计算 机 上 仿真 模拟 各 种 计算 机 功能 来 实现 的 。 

9. sc. textFile: 默认 是 从 HDFS 读 取 文件 ,也 可 以 指定 sc. textFile(* 路 径 ”), 在 路 径 前 面 加 上 
HDFS:// 表 示 从 HDFS 文件 系统 上 读 取 。 

10. flatMap: 类 似 于 Map, Map 是 对 RDD 中 的 每 个 元 素 都 执行 一 个 指定 的 函数 来 产生 一 个 新 的 
RDD, 任 何 原 RDD 中 的 元 素 在 新 RDD 中 都 有 且 只 有 一 个 元 素 与 之 对 应 ,而 flatMap 是 原 RDD 中 的 元 素 经 
处 理 后 可 生成 多 个 元 素来 构建 新 RDD。 

11. reduceByKey: 就 是 对 元 素 为 K-V 对 的 RDD 中 Key 相同 的 元 素 的 Value 进行 Reduce, 因 此 ,Key 
相同 的 多 个 元 素 的 值 被 Reduce 为 一 个 值 ,然后 与 原 RDD 中 的 Key 组 成 一 个 新 的 K-V 对 。 

12. API( Application Programming Interface, 应 用 程序 编程 接口 ): 是 一 些 预先 定义 的 函数 ,目的 是 提 
供应 用 程序 与 开发 人 员 基 于 某 软件 或 硬件 得 以 访问 一 组 例 程 的 能 力 , 而 又 无 须 访问 源码 或 理解 内 部 工作 
机 制 的 细节 。 

13. JSON(JavaScript Object Notation); 是 一 种 轻 量 级 的 数据 交换 格式 。JSON 采用 完全 独立 于 语言 
的 文本 格式 ,但 是 也 使 用 了 类 似 于 C 语言 家 族 的 习惯 (包括 C.C++.C # „Java, JavaScript, Perl, Python 等 )， 
这 些 特性 使 JSON 成 为 理想 的 数据 交换 语言 。 

14. JDBC(Java Data Base Connectivity ,Java 数据 库 连 接 ) : 是 一 种 用 于 执行 SQL 语句 的 Java API, nf 
以 为 多 种 关系 数据 库 提 供 统一 访问 , 它 由 一 组 用 Java 语言 编写 的 类 和 接口 组 成 。 

15. ODBC(Open Database Conneetivity, 开 放 数 据 库 连 接 ) : 是 微软 公司 开放 服务 结构 中 有 关 数 据 库 的 
一 个 组 成 部 分 , 它 建立 了 一 组 规范 ,并 提供 了 一 组 对 数据 库 访问 的 标准 API。 这 些 API 利用 SQL 来 完成 
其 大 部 分 任务 。ODBC 本 身 也 提供 了 对 SQL 语言 的 支持 ,用 户 可 以 直接 将 SQL 语句 送 给 ODBC。 

16. 持久 化 : 把 数据 (如 内 存 中 的 对 象 ) 保 存 到 可 永久 保存 的 存储 设备 中 (如 磁盘 )。 持 久 化 的 主要 应 
用 是 将 内 存 中 的 对 象 存储 在 数据 库 中 ,或 者 存储 在 磁盘 文件 .XML 数据 文件 中 等 。 

17. iter: 迭代 器 (iteraton) ,又 称 游标 (cursor), 是 程序 设计 的 软件 设计 模式 ,可 在 容器 (container, 例如 
链表 或 阵列 ) 上 遍 访 的 接口 ,设计 人 员 无 须 关 心 容器 的 内 容 。 

18. 广 点 通 : 是 一 个 依托 优质 流量 资源 ,可 提供 给 广告 主 多 种 广告 形式 投放 ,并 利用 专业 数据 处 理 算 
法 实现 成 本 可 控 , 效 益 可 观 .智能 定位 的 效果 广告 投放 系统 。 

19. Bug: 漏洞 ,是 在 硬件 .软件 .协议 的 具体 实现 或 系统 安全 策略 上 存在 的 缺陷 ,从 而 可 以 使 攻击 者 能 
够 在 未 授权 的 情况 下 访问 或 破坏 系统 。 
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内 容 与 要 求 


云 计算 与 大 数据 是 目前 IT 界 最 为 热门 的 两 个 概念 。 云 计算 以 各 种 软 硬 件 资源 新 
的 交付 与 消费 模式 为 核心 理念 ,被 普遍 认为 是 未 来 社会 最 为 深远 的 革新 。 云 计算 的 核心 
是 数据 ,具体 讲 就 是 能 实现 海量 多 类 型 .高 负载 .高 性 能 、 低 成 本 需求 的 数据 管理 技术 。 
云 计算 是 大 数据 的 核心 技术 支撑 ,两 者 密 不 可 分 。 

云 计算 概论 : 了 解 云 计算 定义 ,熟悉 云 计算 基本 特征 ,掌握 云 计算 服务 模式 相关 
知识 。 

云 计 算 核 心 技术 : 熟悉 虚拟 化 技术 ,了 解 常 见 的 虚拟 化 软件 及 其 应 用 ,熟悉 资源 池 
化 技术 与 云 计算 资源 池 的 应 用 原理 ,掌握 云 计算 部 署 模 式 及 相关 知识 。 

云 计 算 仿真 了解 云 计算 仿真 的 概念 与 常用 工具 CloudSim、GreenCloud 与 
MDCSim。 

云 计算 安全 : 了 解 云 计 算 安全 现状 , 热 悉 云 计算 安全 服务 体系 。 

云 计 算 应 用 案例 : 熟悉 并 掌握 常用 的 云 服务 应 用 与 虚拟 仿真 软件 VMware 
Workstation 的 使 用 方法 。 





重点 、 难 点 





本 章 的 重点 是 云 计 算 的 基本 特征 、 服 务 模式 、 部 署 模式 与 常见 云 应 用 。 本 章 的 难点 
是 云 计算 的 虚拟 化 与 资源 池 化 技术 。 











O .大 元 据 技 术 概论 


通过 观察 Hadoop, NoSQL, HOGER RDBMS 等 与 大 数据 相关 的 新 技术 ,发 现 它 们 具有 
的 共同 特征 是 采用 分 布 . 并 行 的 策略 来 解决 复杂 问题 : 数据 量 大 ,将 其 分 割 后 分 散 存 放 在 不 
同 的 网 络 存储 结 点 上 ; 计算 量 大 ,将 其 分 散在 网 络 集群 结 点 上 执行 。 由 此 可 知 , 大 数据 技术 
需要 通过 云 计算 方法 来 实现 。 


10.1 云 计 算 概论 


从 广义 上 来 说 , 云 计算 是 通过 网 络 提供 可 伸缩 的 、 廉 价 的 分 布 式 计算 能 力 , 代 表 了 以 虚 
拟 化 技术 为 核心 ,以 低 成 本 为 目标 的 动态 可 扩展 网 络 应 用 基础 设施 ,是 最 具 代 表 性 的 网 络 计 
算 技术 与 模式 。 


10.1.1 云 计算 定义 


云 计算 的 定义 以 美国 国家 标准 与 技术 研究 所 (National Institute of Standards and 
Technology'NIST) 的 定义 为 代表 : 云 计 算是 一 种 用 于 对 可 配置 共享 资源 池 ( 网 络 、 服 务 器 、 
存储 、 应 用 和 服务 ) ,通过 网 络 方便 的 \ 按 需 获取 的 模型 ,以 最 少 的 管理 代价 或 以 最 少 的 服务 
商 参与 ,快速 地 部 署 与 发 布 。NIST 定义 的 云 计 算 架构 具有 3 种 服务 模式 、4 种 部 署 模式 与 
5 个 关键 功能 ,如 图 10-1 所 示 。 


软件 即 服务 平台 即 服 务 基础 设施 即 服务 
服务 模式 一 | 一 (SaaS) 































































































(PaaS) (laaS) 
按 需 自动 服务 

关键 功能 一 人 | 广泛 的 网 络 接 入 | ma e 
资源 池 标准 服务 

高 可 扩展 性 自动 化 计算 

特征 一 [| Web 应 用 | antin 
虚拟 化 | 面向 服务 

免费 或 费用 低廉 的 软件 高 安全 性 











图 10-1 NIST 的 云 计算 基本 架构 


从 技术 角度 来 看 , 云 计算 可 以 分 为 两 种 不 同 的 技术 方法 。 第 一 种 是 分 布 式 计算 与 存储 
的 技术 ,以 MapReduce 为 代表 ; 第 二 种 是 将 集中 的 资源 分 割 后 分 散 使 用 的 技术 , 即 实现 资 
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源 集约 与 分 配 的 技术 ,主要 有 两 类 ,一 类 是 虚拟 化 技术 ,包括 对 计算 资源 、 网 络 资源 、 存 储 资 
源 等 的 虚拟 化 , 另 一 类 是 各 种 资源 的 精细 化 管理 技术 。 

对 于 云 计算 的 进一步 理解 ,可 以 认为 云 计算 技 术 是 未 来 数字 社会 中 IT 的 主要 运营 方 
式 。 未 来 IT 世界 只 有 两 种 角色 : 云 的 提供 者 与 云 的 消费 者 ,前 者 像 发 电厂 ,后 者 像 用 电 者 ， 
人 们 简单 地 打开 开关 ,就 可 以 方便 地 使 用 IT, 并 且 按 需 使 用 、 按 量 计 费 。 


10.1.2 云 计算 与 大 数据 的 关系 


云 计算 是 大 数据 分 析 与 处 理 的 一 种 重要 方法 , 云 计算 强调 的 是 计算 ,而 大 数据 则 是 计算 
的 对 象 。 如 果 数 据 是 财富 ,那么 大 数据 就 是 宝藏 , 云 计 算 就 是 挖掘 和 利用 宝藏 的 利器 。 

云 计算 以 数据 为 中 心 ' 以 虚拟 化 技术 为 手段 来 整合 服务 器 .存储 、 网 络 ,应 用 等 在 内 的 各 
种 资源 ,形成 资源 池 并 实现 对 物理 设备 集中 管理 ,动态 调配 和 按 需 使 用 。 借 助 云 计算 的 力 
量 , 可 以 实现 对 大 数据 的 统一 管理 、 高 效 流通 和 实时 分 析 , 挖 掘 大 数据 的 价值 ,发 挥 大 数据 的 

云 计算 为 大 数据 提供 了 有 力 的 工具 和 途径 ,大 数据 为 云 计算 提供 了 有 价值 的 用 武之 地 。 
将 云 计算 和 大 数据 结合 ,人 们 就 可 以 利用 高 效 、 低 成 本 的 计算 资源 分 析 海 量 数据 的 相关 性 ， 
快速 找到 共性 规律 ,加 速 人 们 对 客观 世界 有 关 规 律 的 认识 。 


10.1.3 云 计算 基本 特征 


云 计算 是 计算 机 技术 和 网 络 技术 发 展 融 合 的 产物 ,是 将 动态 的 、 易 扩展 且 被 虚拟 化 的 计 
算 资 源 通过 互联 网 提供 的 一 种 服务 。 云 计算 的 核心 思想 是 将 大 量 用 网 络 连 接 的 计算 资源 进 
行 统一 管理 和 调度 ,构成 一 个 计算 资源 池 , 根 据 用 户 需求 提供 服务 。 云 计算 具有 以 下 特征 。 









1. 强大 的 虚拟 化 能 力 


在 云 计算 基础 设施 中 .各 种 计算 资源 被 连接 在 一 起 ,形成 统一 的 资源 池 , 动 态 地 部 署 并 
分 配给 不 同 的 应 用 和 服务 ,满足 它们 在 不 同时 刻 的 需求 。 云 计算 支持 用 户 在 任意 位 置 、 使 用 
各 种 终端 获取 应 用 服务 。 用 户 无 须 了 解 也 不 用 担心 应 用 运行 的 具体 位 置 ,只 需 一 个 能 连接 
网 络 的 终端 ,就 可 以 通过 网 络 服务 来 实现 所 需要 的 一 切 。 


2. 高 可 扩展 性 


“ 云 ” 的 规模 可 以 动态 伸缩 :以 满足 应 用 和 用 户 规模 不 断 增 长 的 需要 。 随 着 用 户 对 云 计 
算 需求 的 不 断 变 化 ,系统 可 以 自动 进行 扩展 。 


3. 按 需 服务 


“ 云 ”是 一 个 庞大 的 资源 池 . 可 以 根据 用 户 的 需求 进行 定制 ,并且 可 以 像 自来水 、 电 、 煤 气 
那样 提供 计量 服务 。 


4. 网 络 化 的 资源 接 入 





基于 云 计算 的 应 用 服务 是 通过 网 络 来 提供 的 .在 “ 云 ” 的 支撑 下 ,可 以 构造 出 千变万化 的 
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应 用 ,并 通过 网 络 提供 给 最 终 用 户 , 网 络 技术 的 发 展 是 推动 云 计算 技术 的 首要 动力 。 


5. 高 可 靠 性 
“ 云 " 通 过 使 用 数据 多 副本 容错 、 计 算 结 点 可 互 换 等 方法 来 保障 服务 的 高 可 靠 性 。 


10.1.4 云 计 算 服 务 模式 


目前 , 云 计算 仍 处 于 初级 发 展 阶段 ,各 类 厂商 正在 开发 不 同 的 云 计 算 服 务 , 包 括 成 熟 的 
应 用 程序 存储 服务 和 垃圾 邮件 过 滤 等 。 云 计算 以 其 基于 面向 服务 的 体系 结构 理念 和 技术 ， 
将 计算 资源 和 应 用 变 成 各 种 服务 ,可 以 说 云 服务 即 一 切 皆 服务 。 

基础 设施 即 服 务 (Infrastructure as a Service, laaS) ,平台 即 服务 (Platform as a Service, 
PaaS) .软件 即 服务 (Software as a Service,SaaS) 是 云 计算 的 3 种 应 用 服务 模式 。 云 计算 服 
务 体系 如 图 10-2 所 示 。 
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应 用 层 [| 软件 即 服务 (SaaS) 








平台 导 “| 一 ”| 平台 即 服务 (PaaS) 








基础 设施 层 — 基础 设施 即 服务 (laas) 














虚拟 化 层 m 硬件 |] 


图 10-2 云 计算 服务 模式 














1. 软件 即 服务 


SaaS 针对 的 是 终端 用 户 , 是 通过 互联 网 提供 软件 的 服务 模式 , 即 服务 提供 商 将 应 用 软 
件 统一 部 署 在 其 服务 器 上 .客户 可 以 根据 自己 的 实际 需求 ,通过 互联 网 向 服务 提供 商 订购 所 
需要 的 应 用 软件 服务 ,按照 订购 服务 数量 的 多 少 和 时 间 的 长 短 支付 费用 。 

SaaS 的 典型 应 用 包括 在 线 邮件 服务 、 网 络 会 议 、 网 络 传真 在 线 杀 毒 等 各 种 工具 型 服 
务 , 在 线 客户 关系 管理 系统 、 在 线 人 力 资源 系统 、 在 线 项 目 管理 等 各 种 管理 型 服务 及 网 络 搜 
索 、 网 络 游戏 .在 线 视频 等 娱乐 性 应 用 。SaaS 是 未 来 软件 业 的 发 展 趋势 ,目前 已 吸引 了 众多 
厂商 的 参与 ,包括 Microsoft 在 内 的 国外 各 大 软件 巨头 都 推出 了 自己 的 Saas 应 用 ,用 友 , 金 
蝶 等 国内 软件 巨头 也 推出 了 自己 的 SaaS 应 用 。 
































2. 平台 即 服 务 


PaaS 针对 开发 者 ,把 开发 环境 作为 一 种 服务 来 提供 。PaaS 可 为 企业 或 个 人 提供 研发 
平台 ,并 提供 应 用 程序 开发 数据库、 应 用 服务 器 、 试 验 、 托 管 及 应 用 服务 。 客 户 不 需要 管理 
或 者 控制 底层 的 云 基础 设施 (网 络 、 服 务 器 、 操 作 系 统 、 存 储 等 ) ,但 能 够 部 署 应 用 程序 及 配置 
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应 用 程序 的 托管 环境 。 

PaaS 服务 模式 可 以 归 类 为 应 用 服务 器 .业务 能 力 接 和 人 .业务 引擎 和 业务 开放 平台 。 
PaaS 服务 模式 向 下 根据 业务 需要 测算 基础 服务 能 力 , 调 用 硬件 资源 ; 向 上 提供 业务 调度 中 
心服 务 ,实时 监控 平台 的 各 种 资源 ,并 将 这 些 资 源 通过 应 用 程序 编程 接口 (Application 
Programming Interface,API) 开 放 给 SaaS 用 户 。 目 前 Paas 的 典型 实例 有 Microsoft 公司 
的 WindowsAzure 平台 、Facebook 的 开发 平台 等 。 


3. 基础 设施 即 服务 


IaaS 针对 的 是 开发 者 ,厂商 把 由 多 台 服 务 器 组 成 的 “云端 ?基础 设施 作为 计量 服务 提供 
给 客户 。IaaS 将 内 存 .I/O 设备 .存储 和 计算 能 力 整 合成 一 个 虚拟 资源 池 , 为 客户 提供 存储 
资源 和 虚拟 化 服务 器 等 各 种 服务 。 这 种 形式 的 云 计算 把 开发 环境 作为 一 种 服务 来 提供 , 厂 
商 可 以 使 用 中 间 商 的 设备 来 开发 自己 的 程序 ,并 通过 互联 网 和 服务 器 传递 给 用 户 。 

laaS 的 优点 是 客户 只 需要 具备 低 成 本 的 硬件 , 按 需 租用 相应 的 计算 能 力 和 存储 能 力 ， 
从 而 大 大 降低 了 客户 在 硬件 方面 的 支出 。 目 前 Microsoft、Amazon, 世 纪 互 联 和 其 他 一 些 提 
供 存储 服务 和 虚拟 服务 器 的 提供 商 可 以 提供 这 种 基于 硬件 基础 的 IaaS 服务 ,他 们 通过 云 计 
算 的 相关 技术 ,把 内 存 .1/O 设备 .存储 和 计算 能 力 集中 起 来 形成 一 个 虚拟 的 资源 池 , 从 而 为 
最 终 用 户 和 SaaS, Paas 提供 商 提 供 服 务 。 


10.2 云 计 算 核 心 技术 


随 着 云 计算 与 大 数据 的 兴起 ,虚拟 化 与 资源 池 化 技术 已 经 成 为 云 计算 中 的 核心 ,是 可 以 
将 各 种 计算 及 存储 资源 充分 整合 和 高 效 利用 的 关键 技术 。 它 们 通过 虚拟 化 手段 将 系统 中 各 
种 异 构 的 硬件 资源 转换 成 灵活 统一 的 虚拟 资源 池 , 进 而 形成 云 计算 基础 设施 ,为 上 层 云 计算 
平台 和 云 服 务 提供 相应 的 支撑 。 


10.2.1 虚拟 化 技术 


虚拟 化 是 指 计算 在 虚拟 的 基础 上 运行 。 虚 拟 化 技术 是 指 把 有 限 的 、 固 定 的 资源 根据 不 
同 需 求 进行 重新 规划 以 达到 最 大 利用 率 的 技术 。 

云 计算 基础 架构 广泛 采用 包括 计算 虚拟 化 、 存 储 虚拟 化 网 络 虚拟 化 等 虚拟 化 技术 ,并 
通过 虚拟 化 层 ,屏蔽 硬件 层 自 身 的 差异 和 复杂 度 , 向 上 呈现 为 标准 化 、 可 灵活 扩展 和 收缩 、 弹 
性 的 虚拟 化 资源 池 , 如 图 10-3 所 示 。 

相对 于 传统 IT 基础 架构 , 云 计算 通过 虚拟 化 整合 与 自动 化 ,应 用 系统 共享 基础 架构 资 
源 池 ,实现 高 利用 率 、 高 可 用 性 、 低 成 本 与 低能 耗 。 并 通过 云 平台 层 的 自动 化 管理 ,构建 易于 
扩展 ,智能 管理 的 云 服务 模式 。 云 计算 的 虚拟 化 技术 按 应 用 可 分 为 以 下 几 类 。 






































1. 服务 器 虚拟 化 


服务 器 虚拟 化 是 指 将 虚拟 化 技术 应 用 于 服务 器 上 ,将 一 台 或 多 台 服 务 器 虚拟 化 为 若干 
服务 器 使 用 。 通 常 ,一 台 服 务 器 只 能 执行 一 个 任务 ,导致 服务 器 利用 率 低下 。 采 用 服务 器 虚 
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拟 化 技术 后 ,可 以 在 一 台 服 务 器 上 虚拟 出 多 个 虚拟 服务 器 ,每 个 虚拟 服务 器 运行 不 同 的 服 
务 , 这 样 便 可 提高 服务 器 的 利用 率 ,节省 物理 存储 空间 及 电能 。 











计算 资源 池 
存储 资源 池 

去 
网 络 资源 池 基础 架构 








图 10-3 云 计算 虚拟 化 部 署 架构 图 


2. 桌面 虚拟 化 


桌面 虚拟 化 是 指 将 计算 机 的 终端 系统 (也 称 为 桌面 ) 进 行 虚拟 化 ,以 达到 桌面 使 用 的 安 
全 性 和 灵活 性 。 桌 面 虚拟 化 可 以 使 用 户 运 用 任何 设备 ,在 任何 地 点 、 任 何 时 间 通 过 网 络 访问 
属于 个 人 的 桌面 系统 ,获得 与 传统 PC 一 致 的 用 户 体验 。 


3. 应 用 虚拟 化 


应 用 虚拟 化 是 指 将 各 种 应 用 发 布 在 服务 器 上 ,客户 通过 授权 之 后 就 可 以 通过 网 络 直接 
使 用 ,获得 如 同 在 本 地 运行 应 用 程序 一 样 的 体验 。 


4. 存储 虚拟 化 


存储 虚拟 化 是 将 整个 云 系统 的 存储 资源 进行 统一 整合 管理 ,为 用 户 提供 一 个 统一 的 存 
储 空间 。 存 储 虚拟 化 可 以 以 最 高 的 效率 、 最 低 的 成 本 来 满足 各 类 不 同 应 用 在 性 能 和 容量 等 
方面 的 需求 。 


5. 网 络 虚 拟 化 


网 络 虚拟 化 是 指 让 一 个 物理 网 络 支持 多 个 逮 辑 网 络 ,虚拟 化 保留 了 网 络 设计 中 原 有 的 
层次 结构 数据 通道 和 所 能 提供 的 服务 ,使 得 最 终 用 户 的 体验 和 独 享 物理 网 络 一 样 ,同时 网 
络 虚 拟 化 技术 还 可 以 高 效 地 利用 如 空间 能源、 设备 容量 等 网 络 资源 。 


10.2.2 虚拟 化 软件 及 应 用 
虚拟 化 技术 是 云 计算 的 关键 技术 .虚拟 化 平台 是 进一步 完成 云 计 算 部 署 的 基础 。 主 流 


第 )0 章 云 计算 与 大 数据 Q 


< 


的 虚拟 化 软件 包括 EMC 公司 的 VMware vSphere, Microsoft 公司 的 Virtual PC, Redhat 公 
司 的 Red Hat Enterprise Virtualization 等 。 


1. VMware 


VMware 在 虚拟 化 和 云 计算 基础 架构 领域 占据 主导 地 位 和 最 大 的 市 场 份额 。VMware 
虚拟 化 产品 主要 有 服务 器 虚拟 化 产品 vSphere Standard( 标 准 版 )、vSphere Enterprise( 企 业 
版 )、vSphere Enterprise Plus( 企 业 增强 版 ) 以 及 vSphere with Operations Management, 网 
络 虚 拟 化 产品 NSX, 存 储 虚 拟 化 产品 VMware Virtual SAN ,桌面 虚拟 化 产品 Horizon, 
Fusion 和 Mirage。 


2. Windows Server 2012 Hyper-V 


Microsoft 在 企业 级 虚拟 化 方面 起 步 较 晚 ,目前 凭借 最 新 版 本 Windows Server 2012 
Hyper-V 在 整合 和 虚拟 管理 方面 缩短 了 与 VMware 的 差距 。Microsoft 虚拟 化 产品 主要 有 
服务 器 虚拟 化 产品 Windows Server 2008(2012)Hyper-V ,桌面 虚拟 化 产品 Virtual Desktop 
Infrastructure „Microsoft Virtual PC, Microsoft Enterprise Desktop Virtualization, 应 用 程 
序 虚拟 化 产品 Microsoft Application Virtualization (App-V) ,虚拟 化 管理 产品 Microsoft 


System Center Virtual Machine Manager。 
3. Red Hat 


Red Hat (H IFW HY Jy spa UE n] Wë A gs PEBE HY zx, Bë L fk. f iB n Linux 以 及 中 间 件 技 
X. Red Hat 在 2008 年 收购 Qumranet 公司 ,获得 内 核 虚拟 机 (Kernel-based Virtual 
Machine, KVM) 管 理 程序 ,确定 虚拟 化 方向 。Red Hat 虚拟 化 产品 主要 有 服务 器 和 桌面 虚 
拟 化 RHEV。 


4. 三 种 虚拟 化 软件 的 对 比 


虚拟 化 软件 的 功能 直接 影响 云 计 算 平 台 的 部 署 ,以 此 对 虚拟 化 软件 核心 功能 进行 了 比 
较 , 如 表 10-1 所 示 。 


表 10-1 虚拟 化 软件 功能 对 比 表 


Windows Server 2012 


Red Hat Enterprise 








KERR tiie amt Hyper-V Virtualization 
最 大 虚拟 CPU 数 4096 2048 无 限制 
最 大 虚拟 内 存 /TB 4 Í 4 





客户 机 支持 的 操作 
系统 


Linux, UNIX x86 和 x64 
Windows XP/Vista/7.8 


Windows 2003/2008/2012 
(certain SPs only) /XP/ 
Vista/7/8, Red Hat En- 
terprise Linux 5+, Red 
Hat Enterprise Linux 6+ 


Windows Server 2003/2008/ 
2010/2012, XP/7/8, Red 
Hat Enterprise Linux 3/4/ 
5/6/7, Enterprise 
Server 10/11, 其 他 开源 操 
作 系 统 


Linux 





虚拟 机 实时 迁移 








Y 





Y 
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续 表 
软件 特点 0 Windows Server 2012 Red Het PO 
Hyper-V Virtualization 
支持 集群 系统 x Y Y 
省 电 模式 Y N 村 
负载 均衡 调度 Y ti Y 
共享 资源 池 Y Y T 
热 添加 虚拟 机 网 卡 、 
E Y Y 
磁盘 
热 添 中 
热 添加 虚拟 处 理 器 |v " N 
vcpu 和 RAM 











10.2.3 资源 池 化 技术 


资源 池 是 指 云 计算 数据 中 心中 所 涉及 到 的 各 种 硬件 和 软件 的 集合 。 云 计算 把 所 有 计算 
的 资源 整合 成 计算 资源 池 , 所 有 存储 的 资源 整合 成 存储 资源 池 , 把 全 部 IT 资源 都 变 成 一 个 
个 池子 ,再 基于 这 些 基础 架构 的 资源 池 去 建设 应 用 ,以 服务 的 方式 交付 资源 。 

例如 : 广州 市 通过 云 平台 形成 面向 民生 的 公共 数据 资源 池 , 并 通过 开通 微 信和 “城市 服 
务 ”功能 ,将 医疗 、 交 管 .交通 、 公 安 户 政 、 出 入 境 、 缴 费 、 教 育 、 公 积 金 等 17 项 民生 服务 汇聚 到 
统一 的 平台 上 ,市 民 通过 一 个 入 口 即 可 找到 所 需 服务 ,诸如 户口 办 理 等 基础 服务 也 无 须 多 次 
往返 办 事 窗口 ,在 手机 上 即 可 一 次 性 完结 。 由 此 可 见 , 具 有 大 数据 分 析 能 力 的 平台 既 可 以 基 
于 数据 开发 更 多 的 民生 类 应 用 .又 可 以 将 进一步 采集 到 的 数据 开放 给 公共 数据 资源 池 ,进而 
形成 积极 利用 大 数据 的 氛围 和 良性 循环 。 


1. 云 计 算 资源 池 的 应 用 原理 


云 计算 资源 池 是 通过 虚拟 化 技术 ,将 IT 支撑 系统 的 设备 组 成 资源 池 系统 ,通过 IT 软 
硬件 厂商 提供 的 管理 工具 ,协议 和 开放 接口 ,实现 对 资源 池 中 各 种 资源 及 设备 的 管理 ,并 完 
成 资源 部 署 .配置 .调度 等 操作 任务 。 云 计算 资源 池 的 结构 如 图 10-4 所 示 。 

单 结 点 的 云 计算 资源 池 范围 通常 为 一 个 物理 结 点 ,包含 的 IT 资源 分 布 在 距离 不 超过 
数 百 米 的 同一 个 楼 内 ; 跨 物理 地 域 的 跨 域 云 资源 池 系 统 的 范围 可 以 是 一 个 物理 地 区 ,包含 
的 IT 资源 可 分 布 于 跨 地 域 的 不 同城 市 ,内 部 可 划分 为 多 个 馆 辑 数据 中 心 与 逻辑 资源 池 。 


2. 云 计算 资源 池 的 规划 原则 


云 计算 资源 池 的 规划 原则 包括 功能 分 类 原则 、 容 量 匹配 原则 和 一 致 化 原则 。 

1) 功能 分 类 原则 

功能 分 类 原则 是 指 在 进行 资源 池 规划 时 ,根据 对 管理 精细 化 程度 的 要 求 ,按照 资源 能 力 
的 不 同属 性 划分 或 定义 不 同 的 资源 池 。 

如 在 私有 云 中 ,通常 会 定义 IP 地 址 资源 池 , 以 便 将 可 用 的 TP 地 址 分 配给 特定 业务 应 
用 .但 通常 不 会 将 某 个 服务 器 虚拟 化 集群 的 网 络 接口 带宽 定义 为 带宽 资源 池 , 因 为 在 私有 云 
中 通常 不 会 限制 某 个 业务 应 用 所 占用 的 网 络 带 宽 ; 而 在 公有 云 中 ,就 需要 定义 带宽 资源 池 ， 
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以 便 将 带宽 分 配给 特定 的 虚拟 机 使 用 ,从 而 避免 影响 其 他 租户 的 服务 质量 。 

2) 容量 匹配 原则 

容量 匹配 原则 是 指 在 规划 资源 池 时 注意 不 同 功能 资源 池 间 容量 的 相互 匹配 。 

如 某 个 由 20 台 物 理 服务 器 构成 的 虚拟 化 计算 资源 池 , 如 果 按 照 7: 1 的 虚拟 化 整合 比 
进行 估算 ,可 支持 140 台 虚 拟 服务 器 运行 ,对 应 IP 地 址 资源 池 则 需要 140 个 可 用 IP 地 址 ; 
如 果 每 台 服 务 器 的 平均 存储 空间 为 200GB, 则 对 应 的 共享 存储 资源 池 可 用 容量 应 为 28TB。 
过 多 或 过 少 的 匹配 资源 会 造成 资源 的 浪费 或 短缺 。 

3) 一 致 化 原则 

一 致 化 原则 是 指 在 规划 资源 池 时 ,对 于 构成 某 个 资源 池 或 某 类 资源 池 的 构成 组 件 应 尽 
量 一 致 化 ,以 减少 构成 组 件 管理 能 力 上 的 差异 ,降低 管理 工作 的 复杂 程度 。 

资源 池 是 数据 中 心 广泛 使 用 虚拟 化 技术 后 新 出 现 的 管理 对 象 , 原 有 的 管理 对 象 不 但 没 
有 减少 ,而 且 由 于 虚拟 化 实例 构建 的 便捷 性 ,导致 虚拟 化 实例 的 数量 爆发 性 增长 。 应 用 一 致 
化 原则 可 以 减少 资源 池 构 成 组 件 的 类 型 ,在 保证 系统 整体 可 用 性 的 前 提 下 ,实现 运营 维护 流 
程 的 标准 化 和 简单 化 。 降 低 资 源 池 组 件 管理 接口 的 复杂 程度 ,有 利于 资源 分 配 管理 和 资源 
池 构 建 管理 自动 化 工具 的 实现 。 
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图 10-4 云 计算 资源 池 结 构图 


10.2.4 云 计 算 部 署 模式 


云 计算 按照 其 资源 交付 的 范围 ,有 3 种 部 署 模 式 , 即 公有 云 、 私 有 云 和 混合 云 ,如 图 10-5 
所 示 。 














公有 云 是 指 为 外 部 客户 提供 服务 的 云 。 它 所 有 的 服务 是 供 别 人 使 用 的 ,而 不 是 自己 用 
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的 。 目 前 ,典型 的 公有 云 有 Microsoft 的 Windows Azure Platform, Amazon 的 AWS, 
Salesforce. com, 以 及 国内 的 阿里 云 ,用友 伟 库 等 。 

对 于 使 用 者 而 言 ,公有 云 的 最 大 优点 是 其 所 应 用 的 程序 、 服 务 及 相关 数据 都 存放 在 公共 
云 的 提供 者 处 ,自己 无 须 做 相应 的 投资 和 建设 。 目 前 最 大 的 问题 是 ,由 于 数据 不 存储 在 自己 
的 数据 中 心 ,其 安全 性 存在 一 定 风 险 ; 同时 ,公有 云 的 可 用 性 不 受 使 用 者 控制 ,这 方面 也 存 
在 一 定 的 不 确定 性 。 

















企业 外 部 /第 三 方 机 构 





企业 内 部 
图 10-5 云 计算 部 署 模式 


2. 私有 云 


私有 云 是 指 企业 自己 使 用 的 云 。 它 所 有 的 服务 不 是 供 别 人 使 用 的 ,而 是 供 自己 内 部 人 
员 或 分 支 机 构 使 用 的 。 私 有 云 的 部 署 比较 适合 于 有 众多 分 支 机 构 的 大 型 企业 或 政府 部 门 。 
随 着 这 些 大 型 企业 数据 中 心 的 集中 化 ,私有 云 将 会 成 为 他 们 部 署 IT 系统 的 主流 模式 。 

相对 于 公共 云 ,私有 云 部 署 在 企业 内 部 ,因此 其 数据 安全 性 ,系统 可 用 性 都 可 由 企业 控 
制 。 但 其 缺点 是 投资 较 大 ,尤其 是 一 次 性 的 建设 投资 较 大 。 


3. 混合 云 


混合 云 是 指 供 自己 和 客户 共同 使 用 的 云 。 它 所 提供 的 服务 既 可 以 供 别 人 使 用 ,也 可 以 
供 自己 使 用 。 相 比较 而 言 ,混合 云 的 部 署 方 式 对 提供 者 的 要 求 较 高 。 

云 计算 代表 着 未 来 信息 技术 的 发 展 方向 ,在 理念 和 模式 上 给 传统 的 软 硬 件 行业 带 来 了 
巨大 的 变革 。 随 着 云 计算 技术 的 发 展 , 其 应 用 服务 模式 也 将 不 断 地 丰富 和 发 展 , 将 为 人 们 提 
供 更 加 便捷 的 服务 .进一步 满足 人 们 的 需要 。 


10.3 云 计 算 仿真 


云 仿真 , 即 基于 云 计算 的 计算 机 仿真 。 可 具体 理解 为 : 由 于 云 计 算 环 境 下 的 各 种 应 用 
服务 都 有 着 不 同 的 配置 .部署 条 件 和 要 求 , 所 以 如 果 要 进行 重复 .可 伸缩 的 试验 来 对 不 同 应 
用 模式 进行 量化 ` 评 价 是 非常 困难 的 ,因此 云 计算 仿真 技术 应 运 而 生 。 云 计算 仿真 的 使 用 不 
仅 降低 了 研究 测试 成 本 和 门槛 :同时 也 降低 了 云 实施 的 风险 和 成 本 。 本 节 对 当前 流行 的 云 
计算 仿真 工具 进行 简介 ,并 对 它们 的 架构 、 功 能 、 性 能 进行 分 析 与 比较 。 
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1. CloudSim 


CloudSim 云 计算 仿真 工具 是 澳大利亚 墨尔本 大 学 Rajkumar Buyya 教授 领导 的 网 格 实 
验 室 和 Gridbus 项 目 推出 的 云 计算 仿真 软件 。CloudSim 提供 了 云 计 算 的 特性 ,支持 云 计算 
的 资源 管理 和 调度 模拟 。CloudSim 扩展 实现 了 一 系列 接口 ,提供 基于 数据 中 心 的 虚拟 化 技 
术 .虚拟 化 云 的 建 模 和 仿真 功能 。 

CloudSim 是 开源 的 ,可 以 在 Windows 和 Linux 上 运行 ,用 户 可 以 根据 自己 的 研究 内 容 
自行 扩展 CloudSim, 加 入 自己 的 代码 ,重新 编译 并 发 布 平台 即 可 。 


2. GreenCloud 


GreenCloud 是 由 卢森堡 大 学 、 北 达科他 州立 大 学 、 剑 桥 大 学 的 多 位 学 者 共同 推出 的 一 
个 基于 网 络 技术 的 软件 模拟 平台 开发 的 云 环境 仿真 器 。GreenCloud 主要 关注 云 通 信 中 的 
能 量 消耗 ,如 服务 器 、 网 络 交 换 机 、 通 信和 链 路 的 能 耗 等 。GreenCloud 是 开源 软件 ,其 80% 的 
代码 是 用 C++ 实 现 的 。 


3. MDCSim 

MDCSim 模拟 器 是 美国 宾夕法尼亚 大 学 在 2009 开发 的 一 款 针对 数据 中 心 的 模拟 器 。 
它 是 商业 化 软件 ,最 大 的 特点 是 数据 中 心 允许 不 同 厂商 不 同 特性 的 硬件 (如 服务 器 、 通 信和 链 
路 ,交换 机 ) 混 合 建 模 。 

这 3 种 主流 云 计算 仿真 模拟 器 的 比较 如 表 10-2 所 示 。 
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表 10-2 云 仿真 模拟 器 的 比较 

参 数 CloudSim GreenCloud MDCSim 

语言 /脚本 Java C++/OTcl C++/Java 

是 否 免费 开源 开源 商用 

模拟 时 间 秒 级 分 钟 级 秒 级 

应 用 模型 计算 .数据 传输 计算 .数据 传输 、 执 行 截止 时 间 计算 

通信 模型 部 分 支持 完全 支持 部 分 支持 
支持 TCP/IP 不 支持 完全 支持 不 支持 

物理 模型 不 支持 支持 添加 插件 模块 不 支持 

能 量 模型 无 支持 服务 器 、 网 络 只 支持 服务 器 


云 计算 作为 一 种 新 兴 的 分 布 式 计算 模式 ,虽然 得 到 了 全 世界 知名 计算 机 公司 和 软件 供 
应 商 的 大 力 支持 ,但 是 在 有 效 处 理 基 础 设施 和 应 用 水 平复 杂 性 上 还 是 缺乏 明确 的 标准 \ 工 具 
和 方法 。 而 云 计算 环境 下 的 优秀 的 模拟 仿真 工具 ,可 以 更 好 地 在 特殊 场景 和 配置 环境 下 进 
行 核心 算法 、 政 策 和 应 用 标准 的 研究 与 测试 ,这 对 于 云 计算 的 健康 、 可 持续 发 展 至 关 重要 。 


10.4 


云 计算 的 安全 


云 计算 是 IT 领域 正在 发 生 的 深刻 变革 ,但 它 在 提高 使 用 效率 的 同时 ,也 为 用 户 信 息 资 
产 安全 与 隐私 保护 带 来 极 大 的 冲击 与 挑战 。 当 前 ,安全 成 为 云 计算 领域 孤 待 突破 的 重要 问 


A 3146 技术 概论 


题 ,同时 云 计算 的 普及 与 应 用 也 是 近年 来 信息 安全 领域 的 重大 挑战 与 发 展 契 机 , 必 将 引发 信 
息 安 全 领域 的 又 一 次 重要 技术 变革 。 


10.4.1 云 计 算 安全 现状 


当前 , 随 着 云 计算 的 不 断 普及 ,安全 问题 的 重要 性 呈现 逐步 上 升 趋势 ,已 成 为 制约 其 发 
展 的 重要 因素 。 近 年 来 ,Amazon、Google 等 云 计 算 的 发 起 者 又 不 断 爆 出 各 种 安全 事故 ,更 
加 剧 了 人 们 的 担忧 。 例 如 ,2009 年 3 月 ,Google 发 生 大 批 用 户 文件 外 泄 事件 ; 2009 年 2 H 
和 7 月 ,Amazon 的 简单 存储 服务 两 次 中 断 , 导 致 依赖 于 网 络 单一 存储 服务 的 网 站 被 迫 瘫痪 
等 。 因 此 ,要 让 企业 和 组 织 大 规模 应 用 云 计算 技术 与 平台 ,放心 地 将 自己 的 数据 交付 于 云 服 
务 提供 商 管理 ,就 必须 全 面 地 分 析 并 着 手 解决 云 计算 所 面临 的 各 种 安全 问题 。 


1. 各 国政 府 对 云 计算 安全 的 关注 


云 计算 在 美国 和 欧洲 等 国 得 到 政府 的 大 力 支 持 和 推广 , 云 计算 安全 和 风险 问题 也 得 到 
各 国政 府 的 广泛 重视 。2010 年 11 月 ,美国 政府 CIO 委员 会 发 布 关于 政府 机 构 采 用 云 计算 
的 政府 文件 ,阐述 了 云 计算 带 来 的 挑战 及 针对 云 计算 的 安全 防护 ,要 求 政府 及 各 机 构 评 估 云 
计算 相关 的 安全 风险 并 与 自己 的 安全 需求 进行 比 对 分 析 。 在 我 国 ,2010 年 5 月 ,工信部 副 
部 长 娄 勤 俭 在 第 2 届 中 国 云 计算 大 会 上 表示 ,我 国 应 加 强 云 计 算 信息 安全 研究 ,解决 共性 技 
术 问 题 , 保 证 云 计 算 产业 健康 .可 持续 地 发 展 。 








2. 国内 外 云 计 算 安 全 标准 组 织 及 其 进展 


国外 已 经 有 越 来 越 多 的 标准 组 织 开 始 着 手 制定 云 计 算 安 全 标准 ,以 求 增强 互 操作 性 和 
安全 性 ,如 结构 化 信息 标准 促进 组 织 与 分 布 式 管 理 任务 组 等 都 启动 了 制定 云 计 算 标 准 工 作 。 
此 外 , 云 计 算 安全 联盟 也 在 云 计算 安全 标准 化 方面 取得 了 一 定 进展 。 


3. 国内 外 云 计算 安全 技术 现状 


在 IT 界 ,各 类 云 计算 安全 产品 与 方案 不 断 涌现 。 例 如 ,Sun 公司 发 布 开 源 的 云 计算 安 
全 工具 可 为 Amazon 的 EC2、S3 及 虚拟 私有 云 平台 提供 安全 保护 。Microsoft 为 云 计算 平 
台 Azure 开发 代号 为 Sydney 的 安全 计划 ,帮助 企业 用 户 在 服务 器 和 Azure 云 之 间 交 换 数 
据 , 以 解决 虚拟 化 、 多 租户 环境 中 的 安全 性 问题 。 开 源 云 计算 平台 Hadoop 也 推出 安全 版 
本 ,引入 安全 认证 技术 ,对 共享 商业 敏感 数据 的 用 户 加 以 认证 与 访问 控制 。 


10.4.2 云 计算 安全 服务 体系 


云 计算 安全 服务 体系 由 一 系列 云 安全 服务 构成 ,是 实现 云 用 户 安全 目标 的 重要 技术 手 
Ez. 根据 其 所 属 层次 的 不 同 , 云 安全 服务 可 以 进一步 分 为 云 基础 设施 服务 、 云 安全 基础 服务 
及 云 安 全 应 用 服务 3 类 。 

















1. 云 安 全 基础 设施 服务 
云 基础 设施 服务 为 上 层 云 应 用 提供 安全 的 数据 存储 、 计 算 等 IT 资源 服务 ,是 整个 云 计 
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算 体系 安全 的 基石 。 其 中 ,安全 性 包含 两 个 层面 的 含义 : 一 方面 , 云 平台 应 分 析 传统 计算 平 
台面 临 的 安全 问题 ,采取 全 面 严 密 的 安全 措施 。 例 如 ,在 物理 层 考虑 厂房 安全 等 ; 另 一 方 
面 , 云 平 台 应 向 用 户 证 明 自己 具备 某 种 程度 的 数据 隐私 保护 能 力 , 例 如 ,在 存储 服务 中 证 明 
用 户 数 据 以 密 态 形式 保存 等 。 





2. 云 安 全 基础 服务 
云 安 全 基础 服务 属于 云 基 础 软件 服务 层 , 为 各 类 云 应 用 提供 信息 安全 服务 ,其 中 ,比较 
典型 的 几 类 云 安全 服务 如 下 。 


1) 云 用 户 身 份 管理 服务 

云 用 户 身 份 管理 服务 主要 涉及 身份 的 供应 \、 注 销 及 身份 认证 过 程 。 在 云 环境 下 ,实现 身 
份 联合 和 单 点 登录 可 以 支持 云 中 的 合作 企业 之 间 更 加 方便 地 共享 用 户 身份 信息 和 认证 服 
务 , 并 减少 重复 认证 带 来 的 运行 开销 。 

2) 云 访问 控制 服务 

云 访问 控制 服务 的 实现 依赖 于 如 何 妥善 地 将 传统 的 访问 控制 模型 (如 基于 角色 的 访问 
控制 等 ) 和 各 种 授权 策略 语言 标准 扩展 后 移植 人 云 环 境 。 

3) 云 审计 服务 

由 于 用 户 缺 乏 安全 管理 与 举证 能 力 , 要 明确 安全 事故 责任 就 要 求 服 务 商 提供 必要 的 支 
持 , 因 此 ,由 第 三 方 实施 的 审计 就 显得 尤为 重要 。 云 审计 服务 必须 提供 满足 审计 事件 列表 的 
所 有 证 据 及 证 据 的 可 信和 度 说 明 。 

4) 云 密码 服务 

由 于 云 用 户 中 普遍 存在 数据 加 、 解 密 运 算 需求 ,因此 , 云 密 码 服务 的 出 现 也 是 十 分 自然 
的 。 除 最 典型 的 加 、 解 密 算法 服务 外 ,密码 运算 中 密 钥 管 理 与 分 发 ,证 书 管理 及 分 发 等 都 可 
以 基础 类 云 安全 服务 的 形式 存在 。 云 密码 服务 不 仅 为 用 户 简化 了 密码 模块 的 设计 与 实施 ， 
也 使 得 密码 技术 的 使 用 更 集中 ,规范 ,也 更 易于 管理 。 


3. 云 安全 应 用 服务 


云 安全 应 用 服务 与 用 户 的 需求 紧密 结合 ,种 类 繁多 。 例 如 ,DDOS 攻击 防护 云 服务 、 
Botnet 检测 与 监控 云 服 务 、 云 网 页 过 滤 与 杀毒 应 用 、 云 垃圾 邮件 过 滤 及 防治 等 。 云 计算 提 
供 的 超大 规模 计算 能 力 与 海量 存储 能 力 在 安全 事件 采集 、 关 联 分 析 、 病 毒 防范 等 方面 实现 了 
性 能 的 大 幅 提升 , 极 大 地 提高 了 安全 事件 搜集 与 及 时 进行 相应 处 理 的 能 力 。 

云 计算 是 当前 发 展 十 分 迅速 的 新 兴 产 业 , 但 其 所 面临 的 安全 技术 挑战 也 是 前 所 未 有 的 ， 
需要 IT 领域 与 信息 安全 领域 的 研究 者 共同 探索 解决 之 道 。 同 时 , 云 计 算 安全 并 不 仅仅 是 
技术 问题 ,还 涉及 标准 化 、 监 管 模式 、 法 律 法 规 等 诸多 方面 ,因此 需要 学 术 界 、 产 业界 及 政府 
相关 部 门 的 共同 努力 才能 实现 。 


10.5 云 计 算 应 用 案例 


在 云 计算 技术 的 驱动 下 , 云 计 算 和 云 服务 的 发 展 及 其 所 提供 的 社会 化 服务 ,为 云 计算 环 
境 下 的 世界 信息 化 改革 提供 了 强大 的 技术 支撑 。 本 节 对 常用 的 云 服 务 模式 与 虚拟 仿真 应 用 





1 大 数据 saat 


案例 进行 介绍 。 
1. 云 服 务 模式 应 用 案例 


【 例 10-1) 申请 百度 网 盘 : 百度 网 盘 是 一 项 云 存储 服务 ,首次 注册 即 有 机 会 获得 15GB 
的 空间 ,用户 可 以 轻松 把 自己 的 文件 上 传 到 网 盘 上 ,并 可 以 跨 终 端 随时 随地 查看 和 分 享 。 

操作 步骤 如 下 : 

(1) 输入 网 址 http://pan. baidu. com/ ,进入 “百度 云 网 盘 ” 网 站 ,如 图 10-6 所 示 。 
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图 10-6 “百度 云 网 盘 "网 站 


(2) 进入 百度 网 盘 登 录 界 面 ,用 百度 、 微 博 或 QQ 账号 登录 。 也 可 以 单 击 下 面 的 “立即 
注册 百度 账号 "按钮 进行 注册 ,如 图 10-7 所 示 。 














e 

Baz 注册 百度 账号 pesmom s= 

手机 号 | v | 问 用 于 登录 和 找 回 杰 码 清 输 入 中 国 大 乱 手 机 号 其 他 用 户 不 可 见 üu 手机 快速 注册 

kia] m 请 使 用 中 国 大 陆 手机 号 ， 编辑 短信 : 
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- = " 作为 登录 密码 ， 发 送 至 ; 
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厂 可 注册 成 功 ， 手 机 号 即 为 营 录 帐 合 。 
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图 10-7 百度 账号 注册 界面 
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(3) 注册 后 ,就 获得 了 免费 的 15GB 的 百度 网 盘 , 可 以 开始 使 用 了 ,如 图 10-8 所 示 。 
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【 例 10-2] 接 入 网 易 云 信 : 网 易 云 信 是 一 项 基于 PaaS 的 即时 通信 (Instant Messaging, 
IM) 云 服务 ,开发 者 通过 调用 云 信 和 软件 开发 工具 包 (Software Development Kit, SDK) #l Z 
端 API 的 方法 可 以 快速 使 用 IM 即时 通信 功能 。 

(1) 输入 网 址 http:// netease. im, 进 入 “网易 云 信 ”网 站 ,输入 邮箱 地 址 后 可 以 注册 云 
信 上 账号 ,申请 IM 云 服务 的 免费 试用 ,如 图 10-9 所 示 。 


Q 
注册 云 信 账 号 
Q 网 易 云 信 — s 
真正 稳定 的 1M 云 服务 
w 
(a) (b) 


图 10-9 注册 “网 易 云 信 ” 





(2) 注册 号 可 以 登录 管理 后 台 界 面 , 单 击 左 侧 导 航 条 上 的 “创建 应 用 ”, 并 选择 应 用 类 
型 ,如 图 10-10 所 示 。 

G) 创建 应 用 后 ,可 在 “IM 基础 功能 下 载 ? 中 选择 SDK 类 型 ,进行 APP 即时 通信 功能 
的 开发 工作 ,如 图 10-11 所 示 。 

【 例 10-3] 注册 华为 企业 云 : 华为 企业 云 提供 包括 云 主 机 、 云 托管 、 云 存储 等 一 站 式 云 
计算 基础 设施 服务 。 

(1) 输入 网 址 http://www. hwclouds. com, 进 入 “华为 企业 云 " 网 站 , 单 击 界面 左上 角 
的 “注册 ”按钮 开始 用 户 注册 ,如 图 10-12 所 示 。 

(2) 单 击 “0 元 免费 体验 "图标, 在 弹出 的 4 种 云 服 务 器 套餐 列表 中 进行 选择 ,如 图 10-13 
所 示 。 
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(b) 
图 10-10 “创建 应 用 "窗口 
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图 10-11 “IM 基础 功能 下 载 "窗口 
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图 10-12 华为 企业 云 注册 


2. 虚拟 机 VMware Workstation 应 用 案例 








VMware Workstation 是 一 款 功 能 强大 的 桌面 虚拟 化 软件 ,使 用 该 软件 可 以 在 单 台 计 
算 机 上 同时 运行 不 同 的 操作 系统 ,也 可 以 进行 全 新 的 应 用 程序 的 开发 ,测试 与 部 署 ,还 可 在 
一 部 实体 机 器 上 模拟 完整 的 网 络 环境 。 

【 例 10-4] 下 载 安装 并 使 用 VMware Workstation 虚拟 机 软件 ,在 虚拟 机 环境 下 安装 
Mac OS X 操作 系统 。 

(1) 通过 百度 检索 VMware Workstation ,进行 下 载 与 安装 ,VMware Workstation 的 安 
装 十 分 简便 ,依次 单 击 "下 一 步 ? 按 钮 即 可 安装 成 功 , 如 图 10-14 所 示 。 

(2) 启动 虚拟 机 软件 ,创建 新 的 虚拟 机 ,会 弹出 新 建 虚拟 机 向 导 窗 口 .如 图 10-15 所 示 。 
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(b) 
图 10-13 申请 华为 云 服务 器 
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图 10-14 VMware Workstation 安装 图 
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(a) 
图 10-15 创建 新 的 虚拟 机 


(3) 在 安装 客户 机 操作 系统 界面 中 ,选择 Mac OS X 操作 系统 的 ISO 文件 ,如 图 10-16 所 示 。 
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图 10-16 选择 客户 机 操作 系统 
(4) 为 虚拟 机 命名 并 设置 其 使 用 的 内 存 和 硬盘 ,如 图 10-17 所 示 。 
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图 10-17 设置 虚拟 机 使 用 的 内 存 和 硬盘 
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(5) 设置 虚拟 机 网 络 连 接 为 “桥接 模式 ”并 单 击 “ 完 成 "按钮 实现 创建 ,如 图 10-18 
所 示 。 
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图 10-18 设置 虚拟 机 网 络 连接 方式 
(6) 选择 “开启 此 虚拟 机 ” 即 可 安装 Mac OS X 操作 系统 ,如 图 10-19 所 示 。 








图 10-19 开启 虚拟 机 并 安装 Mac OS X 操作 系统 


本 章 小 结 


云 计算 是 引领 信息 社会 创新 的 关键 战略 性 技术 手段 , 云 计算 的 普及 与 运用 将 引发 未 来 
新 一 代 信 息 技术 变革 。 云 计算 将 改变 IT 产业 ,也 会 深刻 地 改变 人 们 工作 和 生活 的 方式 。 
通过 本 章 的 学 习 , 希 望 读 者 在 了 解 云 计算 的 概念 熟悉 云 计算 关键 技术 与 安全 知识 的 基础 
上 ,对 自己 的 工作 与 生活 有 所 启发 和 帮助 。 

【注释 】 

1. Gmail; Gmail 是 Google 的 免费 网 络 邮件 服务 , 它 有 内 置 的 Google 搜索 技术 并 提供 15GB 以 上 的 存 
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储 空间 。 

2. Botnet: 即 僵尸 网 络 ,是 指 采 用 一 种 或 多 种 传播 手段 ,将 大 量 主机 感染 bot EF CUP EE PF ) ,从 而 在 
控制 者 和 被 感染 主机 之 间 形 成 一 个 可 一 对 多 控制 的 网 络 。 

3. Google App Engine: Google App Engine 允许 用 户 本 地 使 用 Google 基础 设施 构建 Web 应 用 , 待 其 
完工 之 后 再 将 其 部 署 到 Google 基础 设施 之 上 。 

4. 在 线 CRM; 在 线 CRM 是 基于 互联 网 模式 、 专 为 中 小 企业 量 身 打造 的 在 线 营 销 管理 ,销售 管理 、 完 
整 客户 生命 周期 管理 工具 。 

5. 在 线 HR: 即 在 线 HR 人 力 资 源 服务 平台 。 

6. 虚拟 化 技术 : 虚拟 化 是 一 个 广义 术语 ,在 计算 机 方面 是 指 计算 元 件 在 虚拟 的 基础 上 而 不 是 真实 的 
基础 上 和 运行。 虚拟 化 技术 可 以 扩大 硬件 的 容量 ,简化 软件 的 重新 配置 过 程 。 

7. 即时 通信 (Instant Messaging, IM) : 是 一 种 可 以 让 使 用 者 在 网 络 上 建立 某 种 私人 聊天 室 (chatroom) 
的 实时 通信 服务 。 

8. SDK(Software Development Kit, 软 件 开 发 工具 包 ): 一 般 都 是 一 些 软 件 工程 师 为 特定 的 软件 包 、 软 
件 框 架 、 硬 件 平台 、 操 作 系 统 等 建立 应 用 软件 时 的 开发 工具 的 集合 。 

9. App: 应 用 程序 ,Application 的 缩写 ,一 般 指 手机 软件 。 

10. 虚拟 机 ( Virtual Machine) : 指 通 过 软件 模拟 的 具有 完整 硬件 系统 功能 的 ,运行 在 一 个 完全 隔离 环 
境 中 的 完整 计算 机 系统 。 

11. 负载 均衡 (Load Balance); 其 意思 就 是 分 摊 到 多 个 操作 单元 上 执行 ,例如 Web 服务 器 .FTP 服务 
器 ,企业 关键 应 用 服务 器 和 其 他 关键 任务 服务 器 等 ,从 而 共同 完成 工作 任务 。 

12. 网 格 计算 : 即 分 布 式 计算 ,是 一 门 计算 机 科学 。 它 研究 如 何 把 一 个 需要 非常 巨大 的 计算 能 力 才能 
解决 的 问题 分 成 许多 小 的 部 分 ,然后 把 这 些 部 分 分 配给 许多 计算 机 进行 处 理 ,最 后 把 这 些 计算 结果 综合 起 
来 得 到 最 终结 果 。 

13. HWE: 松 耦 合 系统 通常 是 基于 消息 的 系统 ,此 时 客户 端 和 远程 服务 并 不 知道 对 方 是 如 何 实现 
的 。 客 户 端 和 服务 之 间 的 通信 由 消息 的 架构 支配 ,只 要 消息 符合 协商 的 架构 , 则 客户 端 或 服务 的 实现 就 可 
以 根据 需要 进行 更 改 , 而 不 必 担 心 会 破坏 对 方 。 

14. Python; 是 一 种 面向 对 象 .解释 型 计算 机 程序 设计 语言 。 

15. DDoS: 即 分 布 式 拒绝 服务 攻击 (Distributed Denial of Service) ,是 指 借助 于 客户 /服务 器 技术 ,将 多 
个 计算 机 联合 起 来 作为 攻击 平台 ,对 一 个 或 多 个 目标 发 动 DDoS 攻击 ,从 而 成 倍 地 提高 拒绝 服务 攻击 的 
威力 。 





11 ë 


大 数据 解决 方案 及 相关 案例 


EJ + 





内 容 与 要 求 


随 着 大 数据 技术 的 飞速 发 展 , 许 许多 多 的 应 用 案例 都 显示 出 这 项 不 可 思议 的 技术 已 
极 大 程度 地 改变 了 人 们 的 日 常生 活 。 大 数据 技术 的 变革 已 经 让 不 少 行业 体验 到 了 更 为 
智能 、 更 为 便捷 的 时 尚 生活 。 本 章 主 要 对 主流 大 数据 解决 方案 及 相关 案例 进行 介绍 ,使 
读者 更 好 地 了 解 大 数据 技术 的 实际 应 用 。 

Intel 大 数据 主要 介绍 Intel 大 数据 解决 方案 Intel Hadoop 与 开源 Hadoop 的 比较 
及 在 Intel 大 数据 解决 方案 下 的 典型 案例 一 一 中 国 移动 广东 公司 详 单 、 账 单 查询 系统 。 

百度 大 数据 主要 介绍 角度 作为 搜索 引擎 网 站 ,利用 其 自身 优势 的 大 数据 解决 方案 及 
百度 大 数据 下 提供 的 多 种 大 数据 分 析 案 例 。 详 细 介绍 百度 预测 中 景点 预测 、 欧 洲 赛 事 预 
测 的 具体 查看 方法 及 相应 结果 的 查看 方法 。 

腾讯 大 数据 主要 介绍 腾讯 大 数据 解决 方案 及 在 此 方案 下 的 典型 案例 一 一 广 点 通 的 
广告 业务 。 





重点 、 难 点 


本 章 的 重点 是 了 解 各 种 大 数据 解决 方案 及 相关 案例 。 本 章 的 难点 是 掌握 已 经 存在 
的 大 数据 具体 案例 的 应 用 方法 。 














如 果 数 据 使 用 者 所 面 对 的 数据 超出 所 拥有 的 数据 存储 、 处 理 和 分 析 的 能 力 ,致使 数据 不 
能 被 有 效 地 利用 时 .就 需要 通过 大 数据 解决 方案 来 解决 当前 的 数据 问题 。 身 处 大 数据 时 代 ， 

















SES 


无 论 个 人 ,企业 还 是 各 种 机 构 都 将 面临 大 数据 问题 。 设 计 适 用 的 大 数据 解决 方案 ,为 个 人 、 
企业 或 机 构 提 供 所 需 的 大 数据 处 理 和 分 析 的 功能 ,是 大 数据 产业 发 展 的 重要 方向 。 因 此 ,大 
数据 解决 方案 首先 以 区 域 智能 数据 中 心 和 互联 网 为 基础 设施 ,再 以 互联 网 服务 体系 为 架构 ， 
同时 以 大 数据 存储 处理, 挖掘 和 交互 式 可 视 化 分 析 等 关键 技术 为 支撑 ,还 要 通过 多 种 移动 
智能 终端 和 移动 互联 网 来 为 大 数据 提供 存储 ,管理 及 分 析 的 。 


11.1 大 数据 解决 方案 基础 


大 数据 解决 方案 的 系统 架构 如 图 11-1 所 示 , 自 下 而 上 包括 的 3 个 层次 ,分 别 为 平台 层 、 
功能 层 和 服务 层 。 各 层 的 具体 功能 如 下 。 

(1) 平台 层 : 其 中 的 大 数据 存储 平台 提供 大 数据 存储 服务 ,大 数据 计算 平台 提供 大 数 
据 计算 服务 ,多 数据 中 心 调度 引擎 为 多 区 域 智能 中 心 的 分 析 架 构 提供 数据 调度 服务 。 

(2) 功能 层 : 包括 大 数据 集成 存储、 管理 和 挖掘 部 分 ,各 部 分 为 大 数据 存储 和 挖掘 提 
供 相 应 功能 。 

(3) 服务 层 : 基于 Web 技术 和 OpenAPI 技术 提供 大 数据 最 终 的 展现 服务 。 


























图 11-1 大 数据 解决 方案 系统 架构 


在 此 基本 架构 下 ,实际 设计 和 实现 大 数据 存储 与 分 析 时 ,该 架构 下 的 各 个 层次 中 需要 通 
过 一 系列 关键 技术 来 实现 ,这 些 技术 主要 包括 以 下 3 个 方面 。 


1. 平台 层 中 包含 的 关键 技术 


(1) 大 数据 分 布 式 存储 系统 : 在 面 对 至 少 PB 级 数据 量 的 情况 下 ,要 满足 各 种 科研 、 应 
用 的 需求 ,需要 研究 大 规模 的 、 半 结构 化 的 及 非 结构 化 数据 的 存储 问题 ,同时 需要 研究 大 数 
据 的 存储 ,管理 和 高 效 访问 的 关键 技术 。 

(2) 分 布 式 数据 挖掘 运行 时 系统 : 面 对 复 杂 的 大 数据 挖掘 算法 运行 的 挑战 ,需要 研究 
有 效 的 支持 层次 ` 递 归 、 和 迭代 及 集成 机 制 的 海量 数据 挖掘 模型 和 运行 系统 ,来 构建 大 数据 运 
行 系统 。 

(3) 智能 数据 中 心 联合 调度 技术 : 面 对 大 数据 存储 和 挖掘 的 挑战 ,需要 研究 多 数据 中 
心 的 负载 均衡 ,智能 联合 调度 技术 ,整合 已 有 的 多 个 数据 中 心 的 存储 和 计算 资源 ,来 构建 基 
于 多 区 域 智 能 中 心 的 大 数据 平台 。 
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大 元 据 技 术 概论 


2. 功能 层 中 包含 的 关键 技术 


(1) 高 可 扩展 性 大 数据 挖掘 算法 : 面 对 大 数据 挖掘 的 挑战 ,为 实现 TB 级 数据 的 建 模 能 
力 , 需 要 研究 基于 云 计 算 的 分 布 式 大 数据 处 理 与 挖掘 算法 ,来 构建 高 度 可 扩展 的 大 数据 处 理 
与 挖掘 算法 库 。 

(2) 大 数据 安全 与 隐私 保护 技术 : 面 对 数据 挖掘 中 ”软件 即 服务 "模式 的 需求 ,为 确保 
大 数据 挖 所 过程 中 的 数据 安全 及 隐私 不 被 泄露 的 问题 ,需要 研究 数据 挖掘 在 云 环 境 下 的 数 
据 审计 、 隐 私 保护 及 结 点 数据 挖掘 技术 。 

(3) 分 布 式 工作 流 引 擎 : 面 对 大 数据 挖掘 分 布 式 调度 的 挑战 ,需要 研究 基于 云 计算 的 
分 布 式 负载 均衡 .工作 流 调 度 技术 ,来 构建 高 效 分 布 式 工作 流 执行 引擎 。 

(4) 交互 式 可 视 化 分 析 技术 : 面 对 传统 分 析 方 法 的 交互 性 及 可 理解 性 不 足 的 问题 , 同 
时 为 实现 大 数据 挖掘 的 高 度 人 机 交互 功能 ,需要 研究 基于 启发 式 、 人 机 交互 .可 视 化 数据 挖 
MAER. 


3. 服务 层 中 包含 的 关键 技术 


(1) 基于 Web 技术 的 大 数据 挖掘 技术 : 为 实现 易于 使 用 的 基于 Web 技术 的 大 数据 挖 
所 技术 ,必须 突破 传统 的 基于 单机 的 数据 挖掘 技术 ,研究 基于 Web 技术 的 大 数据 挖掘 方法 ， 
以 构建 基于 Web 技术 的 大 数据 分 析 环 境 。 

(2) 基于 Open API 技术 的 大 数据 挖掘 技术 : 突破 传统 的 数据 控 气 技术, 研究 基于 
Open API 技术 的 大 数据 挖掘 方法 ,并 研究 大 数据 挖掘 的 开放 式 接 口 、 开 放 式 流程 ,以 构建 
基于 Open API 技 术 的 大 数据 分 析 模 式 。 

为 了 能 够 提供 大 数据 处 理 及 分 析 的 服务 功能 ,大 数据 解决 方案 必须 突破 传统 方式 下 的 
基于 软件 及 高 端 服 务 器 的 数据 挖掘 技术 体系 ,并 采用 基于 云 计算 的 大 数据 存储 及 处 理 架 构 ， 
分 布 式 大 数据 挖掘 算法 及 基于 互联 网 的 大 数据 存储 、 处 理 及 挖掘 模式 。 

随 着 大 数据 技术 的 发 展 ,大 数据 的 价值 已 经 被 认可 。 在 国外 ,大 数据 的 发 展 为 大 型 的 传 
统 IT 公司 提出 了 新 的 发 展 课题 ,包括 Microsoft IBM, Oracle 在 内 的 拥有 主流 数据 库 技术 
的 公司 已 经 各 自发 布 了 明确 的 大 数据 解决 方案 ,甚至 连 Intel 这 样 的 主要 研发 计算 机 硬件 的 
公司 也 参与 到 了 大 数据 技术 发 展 中 。 在 国内 ,以 百度 、 腾 讯 .淘宝 等 为 代表 的 互联 网 公司 已 
经 建立 了 各 自 的 大 数据 平台 。 下 面 我 们 将 对 Intel .百度 和 腾讯 的 大 数据 典型 案例 进行 
介绍 。 





11.2 Intel 大 数据 


11.2.1 Intel 大 数据 解决 方案 


虽然 Hadoop 并 不 可 以 作为 大 数据 的 代名词 .但 当 提 到 大 数据 架构 时 ,人 们 还 是 会 首先 
想到 Apache Hadoop, fE 2012 年 7 月 .Intel 对 外 发 布 了 自己 的 Hadoop 商业 发 行 版 
(Apache Hadoop Distribution) ,Intel 也 是 大 型 大 数据 厂商 中 唯一 拥有 自行 发 行 版 Hadoop 
的 公司 。 
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1. 解决 方案 


Intel Hadoop 发 行 版 包含 有 关 大 数据 的 所 有 分 析 、 集 成 及 开发 组 件 , 并 针对 不 同 组 合 进 
行 了 更 加 深入 的 优化 。 同 时 , Intel Hadoop 发 行 版 还 添加 了 Intel Hadoop 管理 器 (Intel 
Hadoop Manager) 。 该 管理 器 从 整个 系统 的 安装 .部 署 到 配置 与 监控 过 程 ,提供 了 对 平台 的 
全 方位 管理 ,如 图 11-2 所 示 。 
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图 11-2 Intel 大 数据 解决 方案 


Intel 大 数据 解决 方案 中 的 各 部 分 具体 功能 如 下 。 

(1) HDFS: HDFS 作为 Hadoop 分 布 式 文件 系统 ,是 运行 在 通用 硬件 上 的 分 布 式 文件 
系统 。 同 时 ,HDFS 提供 了 一 个 高 吞吐 量 .高度 容错 性 的 海量 数据 存储 解决 方案 。 

(2) HBase: HBase 是 一 个 面向 列 的 、 实 时 的 、 分 布 式 数据 库 , 但 不 是 一 个 关系 型 数据 
库 ,HBase 用 来 解决 关系 型 数据 库 在 处 理 海量 数据 时 的 理论 上 和 实现 上 的 局 限 性 。HBase 
是 为 TB 到 PB 级别 的 海量 数据 存储 和 高 速 读 写 而 设计 的 ,这 些 海量 数据 分 布 在 数 千 台 普通 
服务 器 上 ,并 且 能 够 被 大 量 高 速 并 发 访问 。 

(3) MapReduce: MapReduce 是 一 个 高 性 能 的 批 处 理 分 布 式 计算 框架 ,用 来 对 海量 数 
据 进行 并 行 处 理 和 分 析 。MapReduce 适合 处 理 各 种 类 型 的 数据 ,包括 结构 化 数据 、 半 结构 
化 数据 和 非 结构 化 数据 。 

(4) Hive: Hive 是 建立 在 Hadoop 之 上 的 数据 仓库 架构 。Hive 采用 HDFS 进行 数据 
存储 ,并 利用 MapReduce 框架 进行 数据 操作 。 从 本 质 上 来 说 , Hive 就 是 个 编译 器 ,其 作用 
是 把 实际 任务 变换 成 MapReduce 任务 ,再 通过 MapReduce 框架 执行 这 些 实际 任务 来 对 
HDFS 上 的 海量 数据 进行 处 理 。 

(5) Pig; Pig 是 一 个 基于 Hadoop 并 运用 MapReduce 和 HDFS 实现 大 规模 数据 分 析 的 
平台 ,Pig 为 海量 数据 的 并 行 处 理 提供 了 操作 及 编程 实现 的 接口 。 

(6) Mahout: Mahout 是 一 套 具 有 可 扩充 能 力 的 机 器 学 习 类 库 ,Mahout 提供 了 机 器 学 
习 框 架 ,同时 Mahout 还 实现 了 一 些 可 扩展 的 机 器 学 习 领 域 中 经 典 算法 ,以 帮助 开发 人 员 方 
便 \ 快 捷 地 创建 智能 应 用 程序 。 

(7) Sqoop: Sqoop 是 一 个 可 扩展 的 机 器 学 习 类 库 ,与 Hadoop 结合 后 ,Sqoop 可 以 提供 
分 布 式 数据 控 掘 功能 ,并且 是 Hadoop 和 关系 型 数据 库 之 间 大 量 传输 数据 的 工具 。 

(8) Flume; Flume 是 一 个 高 可 用 、 高 可 靠 性 、 分 布 式 的 海量 日 志 采 集 、 聚 合 和 传输 的 系 
统 , 支 持 在 日 志 系 统 中 定制 各 类 数据 发 送 方 , 用 于 收集 数据 ; 同时 ,提供 对 数据 进行 简单 处 
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理 , 并 写 到 各 种 数据 接收 方 的 能 力 。 
(9) Zookeeper: Zookeeper 是 Hadoop 和 Hbase 的 重要 组 件 , 为 分 布 式 应 用 程序 提供 
协调 服务 ,包括 系统 配置 维护 、 命 名 服务 和 同步 服务 等 。 


2. 优势 


Intel 的 Hadoop 发 行 版 针对 现 有 实际 案例 中 出 现 的 问题 进行 了 大 量 改 进 和 优化 ,这 些 
改进 和 优化 弥补 了 开源 Hadoop 在 实际 案例 中 的 缺陷 和 不 足 , 并 且 提 升 了 性 能 , 具体 如 
K 11-1 所 示 。 同 时 ,基于 Intel 在 云 计算 研发 上 的 经 验 积累 ,对 实际 案例 解决 提供 了 从 项 目 
规划 到 实施 各 阶段 专业 的 咨询 服务 ,因此 ,Intel 大 数据 解决 方案 更 易于 构建 高 可 扩展 及 高 
性 能 的 分 布 式 系统 。 

表 11-1 Intel Hadoop 与 开源 Hadoop 比较 


Intel Hadoop 开源 Hadoop 





针对 HDFS 的 DataNode 读 取 选取 提供 高 级 均衡 | 简单 均衡 算法 ,容易 在 慢 速 服务 器 或 热点 服务 器 上 
算法 p= E B: 5 R 8 





根据 读 请 求 并 发 程度 动态 增加 热点 数据 的 复制 倍数 ,| 无 法 自动 扩充 倍数 功能 ,在 集中 读 取 时 扩展 性 不 
提高 MapReduce 任务 扩展 性 强 , 存 在 性 能 瓶颈 





为 HDFS 的 NameNode 提供 双 机 热 备 方案 ,提高 可 |NameNode 是 系统 的 单 点 破损 点 ,一 旦 失败 系统 将 
HHE 无 法 读 写 





实现 小区 城 效 据 中 心 四 级 天 表 " 用 户 应 用 可 实现 位 守 wasanmi qaqam 
透明 的 数据 读 写 访问 和 全 局 汇总 统计 人 





可 将 HBase 表 复制 到 异地 集群 ,并 提供 单 向 双向 复 


制 功能 ,实现 异地 容 灾 没有 成 熟 的 复制 方案 





基于 HBase 的 分 布 式 聚合 函数 ,效率 比 传统 方式 提 | _ 
高 10 倍 以 上 无 成 熟 方案 








实现 对 HBase 的 不 同 表 的 复制 份 数 进行 精细 控制 “| 无 此 功能 


11.2.2 Intel 大 数据 相关 案例 一 一 中 国 移动 广东 公司 详 单 .账单 
查询 系统 


与 许多 国家 一 样 , 随 着 移动 设备 .快速 3G 和 4G 连接 ,自助 服务 或 账户 相关 信息 查询 服 
务 日 益 受 到 消费 者 的 青睐 .中国 通信 服务 运营 商 已 经 经 历 了 爆炸 性 的 增长 。 中 国 移动 广东 
公司 始终 重视 通过 提供 客户 切实 需要 的 服务 来 增加 用 户 体验 ,公司 将 运营 支撑 系统 和 客户 
服务 总 体 上 作为 提供 差异 化 服务 的 一 个 关键 资产 。 在 这 个 系统 中 , 详 单 查询 系统 组 件 为 结 
算 支持 人 员 提 供 了 一 个 最 重要 的 客户 接触 点 。 原 有 解决 方案 存在 以 下 问题 

(1) 现 有 计 费 系统 维护 成 本 高 ,因而 侵蚀 了 计 费 业务 单位 的 人 一 利 能 力 。 

(2) 当前 高 科技 个 性 化 的 客户 支持 模式 不 可 扩展 ,无 法 应 对 爆炸 性 的 需求 增长 ,可 能 会 
导致 不 满 的 顾客 流向 竞争 对 手 。 

(3) 原 有 数据 库 解决 方案 无 法 满足 存储 规模 和 实时 查询 要 求 ,进而 无 法 为 用 户 提供 满 
意 的 服务 。 

针对 以 上 问题 ,Intel 提供 了 Hadoop 和 至 强 5600 处 理 器 解决 方案 ,如 图 11-3 所 示 。 











<< 
客户 自动 服务 计 费 请 求 
详 单 查询 系统 
yE- 
Hadoop* 
图 11-3 Intel 基于 大 数据 优化 的 软 硬 件 解决 方案 


新 的 方案 解决 了 以 下 问题 : 

(1) 优化 硬件 性 能 ,以 处 理 大 数据 。 使 用 专 为 Hadoop 软件 而 优化 的 至 强 5600 系列 通 
用 计算 平台 取代 原 有 平台 ,进而 降低 总 拥有 成 本 ,提高 性 能 。 

(2) 基于 Hadoop 的 近 实时 分 析 。 采 用 Intel Hadoop 发 行 版 (Intel Distribution) 来 消 
除数 据 访 问 瓶 横 和 发 现 用 户 使 用 习惯 ,开展 更 有 针对 性 的 营销 和 促销 活动 。 

(3) 利用 Hadoop 分 布 式 数 据 库 (Hadoop HBase) 扩 展 存 储 。Intel Distribution 的 “大 
数据 表 ” 增 强 了 Hadoop HBase, 可 以 跨 结 点 自动 分 割 数据 表 , 降 低 存储 扩展 成 本 。 

Intel 基于 大 数据 量 优化 的 软 硬 件 解决 方案 使 中 国 移动 广东 公司 的 个 人 用 户 能 够 查询 
并 在 线 支付 话费 ,准确 实时 查询 6 个 月 内 的 电话 详 单 ,中 国 移动 广东 公司 的 话费 查询 网 页 
(http://gd.10086. cn/service/) 如 图 11-4 所 示 。 中 国 移动 广东 公司 的 账单 明细 检索 查询 速 
度 是 300 000 份 账单 / 秒 . 账 单 插入 速度 是 800 000 份 账单 / 秒 。 目 前 每 月 无 颖 处理 30TB 的 
用 户 计 费 数据 ,每 个 表 支 持 数 十 亿 份 账单 ,查询 性 能 提高 了 30 倍 , 从 而 大 大 提高 了 新 系统 的 
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图 11-4 中 国 移动 广东 公司 话费 查询 网 页 
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11.3 百度 大 数据 


11.3.1 百度 大 数据 引擎 


百度 拥有 海量 的 数据 基础 ,拥有 EB 级 别 的 超大 数据 存储 和 管理 规模 ,并 达到 100PB/ 天 
的 数据 计算 能 力 , 可 达到 毫秒 级 响应 速度 。 百 度 已 收录 全 世界 超过 10 000 亿 张 网 页 ,相当 
于 5000 个 国家 图 书馆 的 信息 量 总 和 。 同 时 承担 着 每 天 百 亿 次 的 访问 请 求 , 可 离线 完成 
1000 亿 网 页 的 处 理 与 分 析 , 时 效 性 网 页 从 更 新 到 索引 只 需要 几 十 秒 , 实 现 大 数据 量 级 下 的 
低 延 迟 和 秒 级 响应 。 百 度 的 数据 具有 实时 性 和 全 面 性 的 特点 , 赛 括 了 全 网 搜索 数据 .全 网 评 
论 信息 、 百 度 内 部 数据 以 及 第 三 方 合作 数据 等 跨行 业 、 跨 地 域 基础 数据 ,海量 的 数据 基础 是 
百度 引领 大 数据 实践 的 基础 。 

百度 坚信 技术 改变 互联 网 ,互联 网 可 以 改造 传统 行业 。 为 了 助力 传统 行业 快速 进入 这 
个 大 数据 的 时 代 , 充 分 发 气 和 利用 大 数据 的 价值 ,百度 大 数据 引擎 向 外 界 提供 大 数据 存储 、 
分 析 及 挖掘 的 技术 能 力 ,这 也 是 全 球 首 个 开放 大 数据 引擎 。 百 度 大 数据 的 两 个 典型 应 用 是 
面向 用 户 的 服务 和 搜索 引擎 ,百度 大 数据 的 主要 特点 如 下 : 

(1) 数据 处 理 技 术 比 面向 用 户 服务 的 技术 所 占 比重 更 大 ; 

(2) 数据 规模 比 以 前 大 很 多 ; 

(3) 通过 快速 迭代 进行 创新 。 

如 图 11-5 所 示 ,百度 大 数据 引擎 主要 包含 三 大 组 件 : 开放 云 .数据 工厂 和 百度 大 脑 。 

行业 应 用 
LI 

[uek 数据 工厂 开放 云 


百度 行业 
数据 数据 


图 11-5 百度 大 数据 引擎 


(1) 开放 云 可 以 将 企业 原本 价值 密度 低 、 结 构 多 样 的 小 数据 汇聚 成 可 虚拟 化 、 可 检索 的 
大 数据 ,解决 数据 存储 和 计算 短 肛 。 

(2) 数据 工厂 对 这 些 数据 加 工 、 处 理 、 检 索 , 把 数据 关联 起 来 ,从 中 挖掘 出 一 定 的 价值 。 

G) 百度 大 脑 建 立 在 百度 深度 学 习 和 大 规模 机 器 学 习 基 础 上 ,最 终 实 现 更 具 前 脆性 的 
智能 数据 分 析 及 预测 功能 ,以 实现 数据 智能 ,支持 科学 决策 与 创造 。 百 度 积极 开放 输出 百度 
大 脑 的 能 力 , 一 方面 助力 国家 在 人 工 智能 .大 数据 等 技术 上 的 整体 提升 ; 另 一 方面 也 帮助 行 
业 转 型 升级 ,提升 企业 的 核心 竞争 力 。 

这 三 大 组 件 作为 3 级 开放 平台 支撑 百度 核心 业务 及 其 拓展 业务 ,也 将 作为 独立 或 整体 
的 开放 平台 ,给 各 行 各 业 提 供 支持 和 服务 ,支持 百度 的 核心 商业 应 用 及 社会 企业 的 新 兴 商 业 
模式 。 

































































11.3.2 百度 大 数据 十 平台 


百度 利用 积累 已 久 的 海量 数据 和 技术 ,于 2015 年 9 月 正式 发 布 百 度 大 数据 十 平台 
Chttp://bdp. baidu. com/) ,百度 开放 数据 具有 四 大 优势 ,分 别 是 海量 数据 积累 .目标 用 户 分 
析 、 前 沿 模 型 算法 和 高 效 计算 能 力 。 百 度 大 数据 十 平台 的 具体 组 成 如 图 11-6 所 示 。 
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图 11-6 百度 大 数据 十 平台 


在 图 11-6 中 可 以 看 到 百度 大 数据 十 平台 提供 了 六 大 产品 服务 组 件 , 包 括 行业 洞察 、 营 
销 决 策 、 客 群 分 析 、 开 放 平 台 、 操 作 引 擎 、 店 铺 分 析 。 现 在 开放 的 六 大 行业 : O20、 零 售 、 旅 
游 .房地产 .金融 、 保 险 , 助 力行 业 实现 大 数据 应 用 的 落地 和 突破 。 百 度 大 数据 十 平台 基于 海 
量 数据 积累 ,实现 行业 趋势 洞察 、 客 群 精准 触 达 、 科 学 营销 决策 、 风 险 危 机 防 控 等 核心 价值 。 
百度 大 数据 十 ,形成 商业 新 能 源 , 渗 透 到 各 行 各 业 助 推 发 展 ,打开 更 大 的 市 场 格局 。 


11.3.3 相关 应 用 


1. 百度 预测 


























百度 基于 海量 的 数据 处 理 能 力 , 利 用 机 器 学 习 和 深度 学 习 等 手段 建立 模型 ,可 以 实现 公 
众生 活 的 预测 业务 。 目 前 ,在 百度 预测 产品 中 已 经 推出 了 景点 舒适 度 预测 、 城 市 旅游 预测 、 
高 考 预测 、 世 界 杯 预测 等 服务 (http://trends. baidu. com/) ,如 图 11-7 所 示 。 

以 世界 杯 预 测 为 例 ,在 2014 年 巴西 世界 杯 的 四 分 之 一 决赛 前 ,百度 ,谷歌 .微软 和 高 盛 
分 别 对 4 强 结果 进行 了 预测 ,结果 显示 : 百度 ,微软 结果 预测 完全 正确 ,而 谷歌 则 预测 正确 3 
支 晋级 球 队 ; 在 小 组 赛 阶 段 的 预测 ,谷歌 缺席 ,微软 ,高盛 的 准确 率 也 低 于 百度 。 总 体 来 看 ， 
无 论 是 小 组 赛 还 是 淘汰 赛 , 百 度 的 世界 杯 结果 预测 中 均 领 先 于 其 他 公司 。 最 终 ,百度 又 成 功 
预测 了 德国 队 夺冠 ,如 图 11-8 所 示 。 

预测 准确 度 来 自 百 度 对 大 数据 的 强大 分 析 能 力 和 超大 规模 机 器 学 习 模 型 。 在 对 体育 数 
据 的 研究 过 程 中 ,百度 的 科学 家 发 现 类 似 保罗 章鱼 的 赛事 预测 完全 有 可 能 借助 大 数据 的 分 
析 能 力 来 完成 。 因 此 ,百度 收集 了 2010—2013 年 全 世界 范围 内 所 有 国家 队 及 俱乐部 的 赛事 
数据 ,构建 了 赛事 预测 模型 .并 通过 对 多 源 异 构 数据 的 综合 分 析 , 综 合 考虑 球 队 实 力 、 近 期 状 
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态 、 主 场 效 应 .博彩 数据 和 大 赛 能 力 5 个 维度 的 数据 。 最 终 实现 了 对 2014 年 巴西 世界 杯 的 
成 功 预 测 。 
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图 11-8 百度 世界 杯 预测 


2. 公共 卫生 领域 一 一 疾病 预测 


通过 百度 搜索 数据 与 医疗 数据 .医保 数据 等 关联 ,并 结合 图 像 识 别 .语音 识别 技术 、 可 穿 
戴 设 备 数据 采集 等 ,通过 大 数据 分 析 与 挖掘 能 力 可 以 实现 人 群 疾病 分 布 关联 分 析 等 。 百 度 
与 中 国 疾病 预防 控制 中 心 (Centers for Disease Control .CDC) 合 作 开发 的 疾病 预测 产品 , 基 
于 对 网 民 每 日 更 新 的 互联 网 搜索 的 分 析 、 建 模 ,实时 反馈 流感 .手足 口 .性 病 . 艾 滋 病 等 传染 
病 , 糖 尿 病 、 高 血压 、 肺 癌 、 乳 腺 癌 等 流行 病 的 爆发 数据 ,并 预测 疾病 流行 趋势 ,是 国家 疾病 控 
制 机 构 传 统 监 测 体系 的 有 力 补充 。 结 合 大 数据 奥 情 分 析 、 公 共 卫 生 危 机 事件 预警 产品 ,有 效 
地 融合 非 结 构 化 大 数据 ,建立 了 基于 互联 网 的 新 兴 公 共 卫 生 数 据 资源 共享 机 制 与 服务 价值 
链 (具体 分 析 结 果 见 第 3 章 )。 


3. 百度 迁徙 








“百度 迁徙 ?利用 百度 地 图 LBS(Location Based Services, 基 于 地 理 位 置 的 服务 ) 开 放 平 
台 、 百 度 天 眼 , 对 其 拥有 的 LBS 大 数据 进行 计算 分 析 . 并 采用 创新 的 可 视 化 呈现 方式 ,在 业 
界 首 次 实现 了 全 程 ,动态 .即时 、 直 观 地 展现 中 国 春 节 前 后 人 口 大 迁徙 的 轨迹 与 特征 ,如 
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图 11-9 所 示 。 
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图 11-9 全 国 8 小 时 迁徙 图 





最 新 版 “百度 迁徙 "于 2015 年 2 月 15 日 上 线 , 功 能 上 相 比 2014 年 实现 了 全 面 升级 , 包 
含 人 口 迁 徙 .实时 航班 机场 热 度 和 车 站 热度 四 大 版 块 。 百 度 迁 徙 动态 图 包含 春运 期 间 全 国 
人 口 流 动 的 情况 与 排行 ,实时 航班 的 详细 信息 ,以 及 全 国 火车 站 、 飞 机 场 的 分 布 和 热度 排行 ， 
通过 百度 迁徙 动态 图 能 直观 地 确定 迁 入 人 口 的 来 源 和 迁 出 人 口 的 去 向 ,如 图 11-10 所 示 
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图 11-10 ”百度 迁徙 


2015 年 “百度 迁徙 ”一 个 新 的 亮点 就 是 加 入 了 “百度 天 眼 ” 功 能 ,这 是 百度 开发 的 一 款 基 
于 百度 地 图 的 航班 实时 信息 查询 产品 ,通过 百度 天 眼 , 可 以 看 到 全 国 范围 内 的 飞机 实时 动态 
和 位 置 ,点 击 要 查询 的 航班 图 标 ,还 可 以 查看 航班 的 具体 信息 ,包括 起 降 时 间 、 飞 机 型 号 和 机 
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4. 旅游 信息 统计 与 预测 


九寨 沟 景 区 通过 与 百度 大 数据 的 合作 ,利用 百度 大 数据 提供 的 客流 量 预测 服务 ,在 景区 
网 站 进行 实时 客流 量 预测 呈现 ,提前 预知 当日 及 未 来 两 日 九寨 沟 客流 量 , 方 便 游客 进行 行 前 
决策 。 同 时 景区 结合 百度 预测 结果 ,制定 不 同 客流 量 下 景区 安全 运营 人 力 及 运力 安排 方案 , 
在 旅游 小 长 假 及 黄金 周 有 效 进行 相应 安排 及 游客 朴 导 ,提升 景区 运营 效率 及 游客 游览 体验 ， 
如 图 11-11 所 示 。 
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图 11-11 九寨 沟 景 区 预测 
峨眉山 景区 购买 百度 大 数据 旅游 行业 全 面 解决 方案 ,全 方位 提升 游客 在 峨眉 山 景 区 的 
旅游 体验 , 见 图 11-12。 所 能 提供 的 信息 如 下 : 
(1) 通过 对 峨眉 山 游 客 多 维度 分 析 , 判 断 峨 眉山 重点 客 源 市 场 分 布 ,进行 客 源 市 场 细 
分 ,准确 发 现 潜 在 市 场 ,优化 营销 重点 和 渠道 ,实现 精准 营销 ; 


四 川 省 乐山 市 峨 收 山 景区 
四 川 省 成 都 市 青羊 宫 

四 川 省 成 都 市 城 隆 庙 

四 川 省 成 都 市 都 江 堰 
阿 贡 茂 族 芜 族 自治 州 九寨 
沟 旅 游 景区 

四 川 省 成 都 市 杜甫 草堂 
四 川 省 成 都 市 青城山 





图 11-12 峨眉 山 景区 游客 七 天 去 向 展示 
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(2) 利用 百度 提供 的 景区 客流 量 预测 服务 ,结合 预测 数据 ,提前 进行 峨眉 山 景区 运营 人 
力 安排 ,优化 安全 管控 效率 ; 

(3) 通过 百度 与 情 系 统 进行 峨眉 山 景 区 与 情 监 控 ,及 时 了 解 游客 正 负 面 反 馈 ,改善 旅游 
服务 ,同时 通过 网 络 与 情事 件 、 网 络 关注 度 及 热点 事件 诊断 ,可 以 辅助 判断 景区 阶段 性 网 络 
营销 效果 。 


5. 百度 指数 


百度 指数 (http://index. baidu. com/ ) 是 以 百度 海量 网 民 行为 数据 为 基础 的 数据 分 享 
平台 ,是 当前 互联 网 乃至 整个 数据 时 代 最 重要 的 统计 分 析 平 台 之 一 ,自发 布 之 日 便 成 为 众多 
企业 营销 决策 的 重要 依据 。 百 度 指数 能 够 告诉 用 户 : 某 个 关键 词 在 百度 上 的 搜索 规模 有 多 
大 ,一 段 时 间 内 的 涨 跌 态势 以 及 相关 的 新 闻 和 与 论 变 化 ,关注 这 些 词 的 网 民 是 什么 样 的 分布 
在 哪里 .同时 还 搜索 了 哪些 相关 的 词 ,帮助 用 户 优化 数字 营销 活动 方案 ,如 图 11-13 所 示 。 
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图 11-13 ”百度 指数 

例如 ,通过 百度 指数 对 "2016 北京 车 展 * 进 行 分 析 , 得 到 如 图 11-14 所 示 的 分 析 结 果 。 

其 中 图 11-14(a) 显示 了 车 展 每 天 的 网 民 搜 索 指 数 , 随 着 车 展 的 进行 ,搜索 指数 是 在 上 升 的 。 
图 11-14(b) 显 示 的 车 展 关 注 度 排行 ,排行 时 分 为 品牌 关注 度 和 车 系 关 注 度 两 种 。 





(a) 


图 11-14 “2016 北京 车 展 "百度 指数 分 析 结 果 
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(b) 


图 11-14 ( 续 ) 


11.3.4 百度 预测 的 使 用 方法 

1. 景点 预测 

通过 输入 网 址 http://trends. baidu. com/ 进 入 “百度 预测 "首页 (如 图 11-7 所 示 ), 然 后 
选择 “景点 预测 ”按钮 © ,进入 "景点 预测 ”界面 ,如 图 11-15 所 示 , 上 默认 的 界面 为 全 国 热点 


m= ya 


景区 预测 结果 。 








图 11-15 百度 景点 预测 
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在 该 界面 下 , 单 击 已 出 现 的 景区 ,如 北京 “故宫 ,可 以 看 到 该 景点 的 拥挤 指数 的 预测 及 
天 气 情况 的 介绍 。 也 可 以 单 击 *30 天 趋势 "按钮 ,进一步 查看 该 景点 的 未 来 30 天 的 趋势 巴 
测 ,如 图 11-16 所 示 。 





故宫 


百度 拥挤 指数 





图 11-16 ”北京 故宫 百度 景点 预测 结果 
如 果 要 查看 感 兴趣 的 其 他 城市 的 景点 ,可 以 通过 在 图 11-15 所 示 的 “景点 预测 ?首页 右 
上 角 显 示 “ 人 全国" 位 置 的 下 拉 列 表 , 来 查看 其 他 城市 景点 预测 。 
2. 欧洲 赛事 预测 
通过 输入 网 址 http://trends. baidu. com/ 进 入 “百度 预测 ”首页 (如 图 11-7 所 示 ) ,然后 


=, 


V 
选择 "欧洲 赛事 预测 ”按钮 " 
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图 11-17 百度 欧洲 赛事 预测 一 一 意甲 
在 图 11-15 中 单 击 " 意 甲 ”按钮 后 .可 以 看 到 当前 “意甲 ”6 场 比赛 的 预测 结果 ,如 果 对 其 


中 某 场 比赛 感 兴趣 可 以 进一步 查看 针对 这 场 比赛 的 各 种 预测 结果 。 如 单 击 “ 拉 齐 奥 对 佛 罗 
伦 ”, 看 到 的 进一步 预测 结果 如 图 11-18 所 示 。 





A AHE 技术 概论 








预 出 解析 Ha x 
> 
¥ I i | $ = = 
NSA 47% 27% 26% aso 
° 主队 e° =u. 
mie aal 
TAER 学 
| BUSES 1 比分 预 到 | 万 室 相 似 赔 率 统计 
=a — 
aika i 1.95 : 3.75 : 3.5 
11 13% swuwsnas T8. m 
`x — L3 A 0:0 9% 35% 32% 33% 
201508 201201 201205 201501 201505 201812 201504 201511 201504 








图 11-18 “拉齐奥 对 佛 罗 伦 " 的 预测 解析 


在 图 11-18 中 可 以 看 到 两 支 球 队 的 该 场 比赛 的 拉齐奥 胜率 预测 是 47% ,平局 率 预测 是 
27%、 佛 罗 伦 胜率 预测 是 26% ,还 可 以 看 到 2013 年 至 今 的 球 队 实力 走势 (其 中 红线 代表 拉 
齐 奥 、 蓝 线 代 表 佛 罗 伦 ) ,还 有 比分 预测 的 结果 。 图 11-18 右上 和 角 的 雷达 图 进一步 说 明了 该 
场 比 赛 的 球 队 实 力 、 赛 前 状态 、 球 场 优势 .联赛 能 力 等 信息 。 通 过 该 雷达 图 可 以 看 到 拉齐奥 
队 与 佛 罗 伦 队 在 球 队 实 力 、 联 赛 能 力 上 比较 相当 ,在 赛 前 状态 和 球场 优势 上 ,拉齐奥 队 更 胜 
一 筹 。 


11.4 腾讯 大 数据 


11.4.1 腾讯 大 数据 解决 方案 


腾讯 作为 互联 网 企业 ,在 2009 年 开始 探索 建设 大 数据 平台 ,经 过 批量 计算 到 实时 计算 、 
离线 查询 到 即席 查询 的 阶段 发 展 ,逐步 形成 一 套 以 TDW (离线 计算 )、TRC( 实 时 计算 )、 
TDBank( 数 据 接 入 )、TPR( 精 准 推荐 ) .Gaia( 集 群 调度 ) 为 核心 模块 的 大 数据 体系 一 一 腾讯 
大 数据 套件 ,如 图 11-19 所 示 。 腾 讯 大 数据 套件 (以 下 简称 大 数据 套件 ) 由 大 数据 平台 与 集 


群 控制 台 两 大 平台 构成 。 
(1) 大 数据 平台 面向 数据 开发 人 员 ,整合 各 种 大 数据 基础 系统 ,组 合成 特定 的 数据 流 
水 线 。 


(2) 集群 控制 台面 向 运 维 人 员 ,统一 管理 大 数据 平台 的 系统 ,提供 集群 部 署 与 管控 的 
功能 。 

一 条 常用 的 、 完 整 的 大 数据 处 理 流水 线 通 常 由 接 入 、 存 储 、 计 算 、 输 出 、 展 示 5 个 层次 衔 
接 而 成 ,如 图 11-20 所 示 。 

依据 图 11-20 所 示 的 常用 大 数据 处 理 流程 ,介绍 腾讯 大 数据 平台 如 下 。 


1. 接 入 层 
(1) 数据 接 入 服务 : 支持 通过 FTP、SFTP、.HTTP 协议 从 外 部 接 入 数据 。 
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图 11-19 腾讯 大 数据 体系 
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图 11-20 常用 大 数据 处 理 流水 线 


用 户 画 像 
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(2) Kafka: 分 布 式 消息 系统 ,作为 平台 的 数据 中 转 站 ,负责 将 接 入 数据 推送 给 若干 下 


2. 存储 层 


(1) PGXZ: 分 布 式 PostgreSQL 数据 库 系 统 。 通 过 数据 库 事 务 分 流 、 数 据 分 布 式 存储 
以 及 并 行 计算 ,提高 数据 库 的 性 能 和 稳定 性 。 
(2) TPG: 基于 传统 数据 库 PostgreSQL 改造 ,主要 承担 小 规模 数据 的 处 理 ,对 大 规模 


数据 框架 的 补充 。 
3. 计算 层 


(1) Tez: 基于 Hadoop 的 查询 处 理 框架 。 作 为 支撑 Pig/ Hive 的 新 一 代 计算 引擎 ,大 幅 


提高 查询 性 能 。 


(2) JStorm: 实时 流 式 计算 框架 ,是 对 Hadoop 批量 计算 的 补充 。 


(3) EasyCount : 


4. 输出 层 


基于 JStorm 的 流 式 计 算 平 台 . 提 供 SQL 语言 的 编程 接口 。 


(1) 数据 分 发 : 支持 通过 FTP、SFTP HTTP 协议 将 数据 分 发 到 外 部 。 
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(2) TDE: 基于 全 内 存 的 分 布 式 KV 存储 系统 ,提供 高 效 的 数据 读 写 能 力 ,使 得 流 式 计 
算 引 擎 产生 的 结果 能 快速 被 外 部 系统 使 用 。 


5. 展示 层 


黄金 眼 : 可 视 化 运营 报表 工具 ,提供 标准 化 的 报表 模块 ,通过 灵活 的 拖 忠 布局 ,自助 创 
建 数据 报表 。 


6. 任务 调度 


数据 流水 线 完成 某 个 数据 处 理 任务 ,不 仅 需要 单个 环节 的 处 理 能 力 , 更 需要 对 各 个 环节 
整体 的 衔接 调度 能 力 。 大 数据 平台 集成 了 腾讯 自 研 的 Lhotse 系统 ,作为 数据 流水 线 的 调度 
编排 中 心 。 


11.4.2 相关 实例 一 一 广 点 通 


腾讯 广 点 通 (http://e. qq. com/) 是 基于 腾讯 社交 网 络 体系 的 效果 广告 平台 ,如 图 11-21 
所 示 。 通 过 广 点 通 ,用 户 可 以 在 QQ 空间 .QQ 客户 端 \ 手 机 QQ 空间 .手机 QQ, 微 信 、QQ 
音乐 客户 端 、 腾 讯 新 闻 客户 端 等 诸多 平台 投放 广告 ,进行 产品 推广 。 作 为 主动 型 的 效果 广 
告 , 广 点 通 能 够 智能 地 进行 广告 匹配 ,并 高 效 地 利用 广告 资源 。 移 动 互联 网 环境 下 , 广 点 通 
可 覆盖 Android, iOS 系统 ,广告 形式 包括 Banner 广告 . 插 屏 广告 等 诸多 种 类 。 
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了 解 广 点 通 =: 


图 11-21 腾讯 广 点 通 


具有 政府 部 门 颁发 的 最 新 年 检 的 营业 执照 等 基本 资质 的 企业 或 公司 可 通过 如 图 11-22 
所 示 的 步骤 使 用 广 点 通 。 

广 点 通 将 广告 进行 排名 ,排名 越 靠 前 获得 的 曝光 机 会 就 越 大 ,排名 原则 如 图 11-23 所 
示 。 对 于 刚 上 线 的 广告 , 广 点 通 会 赋予 一 个 大 盘 的 平均 点 击 率 及 点 击 转化 率 作 为 初始 值 。 
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图 11-22 腾讯 广 点 通 操作 流程 


排名 越 靠 前 获得 的 曝光 越 多 
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图 11-23 腾讯 广告 排名 原则 


广 点 通 是 最 早 使 用 Spark 的 应 用 之 一 。 腾 讯 大 数据 精准 推荐 借助 Spark 快速 迭代 的 优 
势 ,实现 了 在 “数据 实时 采集 、 算 法 实时 训练 、 系 统 实时 预测 ”的 全 流程 实时 并 行 算法 ,支持 每 
天 上 百 亿 的 请 求 量 。 利 用 Spark 的 快速 查询 等 优势 ,承担 了 数据 的 即席 查询 工作 ,在 性 能 方 
面 ,普遍 比 Hive 高 2—10 倍 。 

Spark 在 广 点 通 中 的 典型 应 用 是 预测 用 户 的 广告 点 击 概率 ,如 表 11-2 一 表 11-4 所 示 。 
K 11-2 中 为 用 户 的 原始 数据 (原始 数据 中 的 一 部 分 ) ,包括 性 别 、 年 龄 ,婚姻 状况 、 所 在 地 、 是 
否 看 到 广告 1 .是 否 看 到 广告 2 .是否 点 击 广告 。 根 据 原始 数据 推断 表 11-3 中 的 “?” 值 , 即 点 
击 看 到 广告 的 可 能 性 ,结果 如 表 11-4 所 示 。 


表 11-2 用 户 的 部 分 原始 数据 











Gender Age Marital Status Location Ad. one Ad. two Is click? 
man 20 unmarried New York true false yes 

woman 40 married California false true yes 
man 60 married California false true no 





表 11-3 需要 预测 的 用 户 数据 




















Gender Age Marital Status Location Ad. one Ad.two Is click? 
man 30 unmarried New York true false ? 
man 30 unmarried New York false true ? 

表 11-4 预测 结果 

Gender Age Marital Status Location Ad. one Ad.two | Ts click? 

man 30 unmarried New York true false 30% 




















man 30 unmarried New York false true 50% 
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本 章 小 结 


本 章 主要 介绍 了 几 个 流行 的 大 数据 平台 及 在 此 平台 下 的 相关 具体 应 用 ,包括 大 数据 解 
决 方案 基础 Intel 大 数据 解决 方案 .百度 大 数据 解决 方案 。 其 中 Intel 公司 的 大 数据 解决 方 
案 针 对 各 种 行业 的 大 数据 需求 ,百度 大 数据 主要 针对 生活 中 各 方面 对 大 数据 的 需求 。 

【注释 】 

1. Open API: API 的 全 称 是 应 用 编程 接口 (Application Programming Interface) ,并 不 是 一 个 新 概念 ， 
在 计算 机 操作 系统 出 现 的 早期 就 已 经 存在 了 。 在 互联 网 时 代 , 把 网 站 的 服务 封装 成 一 系列 计算 机 容易 识 
别 的 数据 接口 开放 出 去 , 供 第 三 方 开发 者 使 用 ,这 种 行为 就 称 开放 网 站 的 API, 与 之 对 应 的 所 开放 的 API 
就 称 为 Open API。 

2. 大 数据 BICBusiness Intelligence, 商 业 智 能 ): 是 能 够 处 理 和 分 析 大 数据 的 BI 软件 ,区 别 于 传统 BI 
软件 ,大 数据 BI 可 以 完成 对 TB 级 别 数据 的 实时 分 析 。 

3. Search API; 搜索 接口 ,如 Google 的 Search API 非常 强大 也 非常 好 用 , 它 提供 了 Custom Search 
API 功 能 ,能 快速 地 实现 个 人 用 户 网 站 的 搜索 功能 。 

4. RAC: 全 称 为 Real Application Clusters, 即 实时 应 用 集群 。 

5. EB: 存储 容量 单位 ,1EB= 1024TB。 

6. 快速 迭代 : 快速 迭代 首先 是 一 种 产品 研发 理念 。 在 快速 迭代 理念 支持 下 的 产品 研发 是 * 上 线 一 反 
馈 一 修改 一 上 线 " 这 样 反复 更 新 内 容 的 过 程 ,形式 非常 适合 互联 网 产品 或 者 移动 端 ,通过 收集 数据 或 用 户 
反馈 迅速 知道 改进 的 结果 ,用 快速 迭代 的 方式 可 以 立即 在 用 户 之 间 找 到 平衡 点 。 

7. 即席 查询 : 用 户 根据 自己 的 需求 ,灵活 地 选择 查询 条 件 , 系 统 能 够 根据 用 户 的 选择 生成 相应 的 统计 
报表 。 即 席 查 询 与 普通 应 用 查询 最 大 的 不 同 是 普通 的 应 用 查询 是 定制 开发 的 ,而 即席 查询 是 由 用 户 自 定 
义 查询 条 件 的 。 

8. SFTP(Secure File Transfer Protocol ,安全 文件 传送 协议 ) : 可 以 为 传输 文件 提供 一 种 安全 的 加 密 方 
法 。 

9. O2O(Online To Offline, 在 线 离线 / 线 上 到 线 下 ): 是 指 将 线 下 的 商务 机 会 与 互联 网 结合 ,让 互联 网 
成 为 线 下 交易 的 平台 。 

10. 点 击 转化 率 : 对 点 击 广告 的 人 数 和 实际 发 生 交 易 或 购买 的 比率 。 

11. 点 击 率 : 点 击 和 显示 次 数 的 比率 。 

12. 运行 时 系统 ; 一 般 运 行 时 系统 运行 在 操作 系统 之 上 ,为 上 层 应 用 程序 提供 更 高 级 ,更 抽象 的 服务 。 
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